miniweb疑似侵權事件之技術分析

最近miniweb事件,來龍去脈,請移玉步到http://www.daisymarisfung.com/2012/01/16/miniweb-copyright-infringement/,不再另述,本文的目的,是談談本人的一些見解,若有任何錯漏,不吝賜教。

聲明:

  1. 商業侵權在香港是刑事罪。
  2. 在英式法律系統下,是假定無罪,即法庭一日未判,都是無罪的。
  3. miniweb有需要就其技術作出澄清及解釋,以釋除公眾的疑慮。
  4. 如各版權持有人,覺得有被miniweb侵權,請向香港海關舉報,這樣海關才有權作調查。
  5. 本人不認識miniweb公司的人,本人亦不認識Daisy本人,本人同miniweb公司及Daisy本人並無任何利益關係及交情。
  6. 本人乃MBCS,出於專業責任,本文以本人之專業,試圖由技術角度,分析有可能出現之侵權問題。
  7. 本人不是法律專家,因此版權上所給的意見,全是個人意見及立場,並不代表本人之見解是真正法律上的見解。如要尋求法律意見,請向律師或有關方面之人士查詢。
  8. 本文只係技術分析文章,是利用技術分析去探討香港版權法的灰色地帶,讓同業能正視香港版權法對我們的影響。若本文令到各位認為有明示暗示針對的話,本人在此再重申一次,本文只是技術討論文章。
  9. 我們講科學,科學講證據,若對本文之技術有意見,請提出反證。

註: 藍色字為後加修改或資料補充.

本人留意miniweb,是其在1月16日上了蘋果日報,而在G+上一些業界頻道上面,Daisy質疑miniweb侵權之言論,而首次知道有miniweb這隻APP。蘋果日報的報導,看到以下這句:「用戶下載 miniweb後,可訂閱內設頻道或自選喜愛網頁,包括報章、 IT網站和討論區等。公司儲服器自動下載網頁資料,再轉化成文字及簡單圖片,供用戶透過手機瀏覽。」從那些黑字,我立即出了個疑問在G+上,其內容如下圖:

我想不到怎樣可省流量,就算係proxy 存到其SERVER做CACHE,由SERVER到電話,如果不修改原SITE DATA,其PAGE SIZE是一樣大,省不到流量。唯一想到能減少到流量的方法,是把原網站PAGE的資料減少,如把圖再壓細,主頁所有無關的DATA刪走,只留重要DATA,其服務有可能有版權問題存在......

由於興趣關係,在寬頻還未發達之年代,我和不少行家都寫過一些機械人,會自動幫手找所需資料或最新新聞,先存在自己的SERVER上,然後定時send email給自己。但這些工具我們都不敢公開及向其他人提供服務,因為這裡涉及到一個侵犯版權的問題,Re-Distribution,中文為再發佈(發表/散佈)的問題。

而在facebook上miniweb負責人Benfeng Chen有一個回應讓我覺得有趣,其內容如下圖:

Benfeng Chen MiniWeb的channel 的名字default就是原来网站的名字,每篇文章的第一行是这个网站的domain。 MiniWeb 的postioning是个browsing tool, 用户用miniweb 来browse 各个网站,看到valuable的网站。Opera 在做压缩的时候也reformat了网站的layout来达到节省流量的目的。 我们承认之前有做得不够完善的地方,我们下一步准备在网站上放一个FAQ,让content provider 可以方便opt out。 我们也会在users在clip 某个网站或者添加RSS的时候给于copyright 的notice。同时也希望你们给MiniWeb更多建议,真诚期待一起合作。

既然其負責人話和opera一樣用了差不多的技術,本著求真的精神,於是我下載了這隻miniweb入iPhone,看看是否和Opera使用同樣技術。

在此之前,首先我們要知道Opera mini和mobile所用的技術,是什麼的技術。

Opera mini和mobile跟據官方網站所提供的資料,是一個browser(瀏覽器),以及自動使用Opera公司的代理伺服器(proxy server)作快取(web cache)之用。下圖是一般傳統proxy server(forwarding)有的流程。

  1. 用家在瀏覽器內輸入要看網頁資料,瀏覽器就會問proxy server取其資料。
  2. 不論proxy server本身有無資料,都會問website。如proxy本身已經有該網頁資料,就會問website該資料有沒有更新過;(2.1)如果沒有,website就會話無;若有的,website就會傳送個最新的給proxy。
  3. 如果proxy收到website話無更新,就會直接send自己本身有的file給用家;若有更新,proxy會等website傳送完最新的DATA給自己及備份後,才會把最新的傳給用家。

而proxy的好處,就是若有很多用家去那個網站又或重訪,若網站沒有更新的話,基本上所有資料都是取自proxy;而當有人去那或重訪網站時,proxy只需去問網站有沒有更新就成,那麼在沒有更新的情況下,可把proxy和網站的傳訊流量減到最少(不是訪問次數,訪問次數在此情況是不受影響[重點])。而另一個好處是,若用家和proxy之間的通訊速度快的,而用家去網站是慢的(如要過大海或衛星),那麼除了第一位用家外,若在網站沒有更新的情況下,其他用家會覺得去該網站會快了。因此不論用家(速度快了)、網絡商(可用更少資源去服務更多客戶)、網站持有人(訪問次數無減少但用少了資源以及少了用家投訴慢)都有得益。

那Opera在這傳統proxy model上,有什麼突破呢?

Opera所用的技術,就是在用家瀏覽器和porxy之間的通訊,在不影響原來應有內容的大原則下,進行壓縮。另外opera mini會多做一樣,就是在proxy上有程式,把在website取下的網頁資料,在不影響layout的情況下,會盡量把所有不需要用或在電話上根本用不到的效果的code減少,官站亦有列出opera mini會支援的功能格式。(講白些就是,把HTML+JAVA SCRIPT的Layout Engine由Browser搬到Proxy Server上,再用這個只有基本function的layout engine所parse出來的outlooking,直接傳回手機上,這是opera mini的做法;但opera mobile個Layout Engine是在電話上,proxy傳到手機上的DATA是用了強力壓縮方法的網頁原始碼)

講到這裡,心水清的讀者應會發現在舊版權法下,其實proxy做法可能會有版權問題。一就是複製,二就是再散佈。但由於無人在這proxy model下有任何利益損失,反而如前面所說三者都有得益。在這情況下,雖舊有版權法下是不合法,但由於無人在此有利益損失下提告,反而因為得益而會更加支援這技術。話雖無罪假定,因無人提告,法庭又無可能界定到這是有罪,但不代表舊有版權法無問題,因此最近政府修訂版權條例,有部份修改就是關於在proxy快取情況下作出括免。

這又帶出版權,在一般製作人眼中,是怎樣認為是被人侵權--其實很簡單,就是其覺得利益受損,以及民事或刑事等問題。這個問題,是需法律學者去解決,在此不再詳談。

好了,講了這麼多,那麼和miniweb有什麼關係呢?究竟miniweb是否如其宣稱一樣是一個像opera mini的browser?其收費究竟有沒道理,有沒有違法?

我們講求科學,講求科學探究精神,當然首先是要做實驗。

於是我在iPhone下載了miniweb回來試試。當然,第一件事,就是試試本站的效果如何,找了唯一能輸入字的地方,試試連入本站,其結果如下圖:

開始……

OTL

是進入不了本站的。那麼,即表示miniweb不是browser。這表示miniweb他們宣稱是browsing tool 是不正確的。

第二,究竟miniweb有沒有使用到proxy model的技術呢?

求證的方法很簡單,若果有自己的VPN或Gateway,可以合法地用tcpdump去聽由電話經我自己的VPN或Gateway所傳取Internet的packet。再比較miniweb、普通Browser、以及opera之間packet的分別。以下分別是普通Browser經squid,用opera,以及miniweb三者之間的分別。

上圖是miniweb的tcpdump,可清楚看到HTTP Header,是標準HTTP Call。(各位有空可試用tcpdump看看, 並照著GET後面的URL, 連入去看看有什麼發現. 有時, 畫公仔不需畫出腸的)

上圖是Opera mobile的tcpdump。Opera是使用其特別壓縮過的通訊協定,所以一定是亂碼(其實是TCP binary)

上圖是傳統Proxy所用的Packet,我們可見到是TCP binary加小量Plain Text。(因為要快,傳統proxy在protocol上亦有做優化)

我們可以看到miniweb所用的不是傳統proxy技術。由tcpdump所看到的,是普通的http call去call miniweb自己的web server。

那麼,雖然miniweb不是用傳統proxy技術,但這又和疑似侵權有什麼關係呢?

那麼請各位先看看miniweb入面,有不少很有用的SITE,其中一個,就是JobsDB,其之前曾經投訴有網站偷其Job Ad去另建網站牟利。看到miniweb能和這大公司合作,真係喜出望外。

不是騙大家,真是有好工。但是…….

發生什麼事,為何JobsDB會話我是機械人?

那麼,miniweb夠竟是Browser, 還是會先收集人家網站資料的Reader服務?

前者經以上分析,好像不是;若是後者的,那麼miniweb現時內置原有頻道內的資料,有沒有其資料擁有者的授權呢?如好似Daisy一文中所提到的情況,連盜版資料都有的話,就必定是侵權了。那麼,miniweb的收費服務,豈不是有更大問題的嗎?

後者有的問題(收集人家網站資料的Reader服務)是,那些服務是用機械人(bot)定時去那些網站(A)更新,把更新後的資料存回自己SERVER(B),當USER開APP閱讀時,資料是由SERVER B傳回給USER,而網站A是完全無記錄的。這種技術和PROXY不同,PROXY技術是會在有USER REQUEST時,會知會網站,並且不會修改。而bot的技術則不會,因此會嚴重影響網站人流,直接或間接影響網站的收入(如廣告,贊助等,因這些是基於網站人流計算;因為人流,代表著其廣告的暴光率;正如無線廣告貴過亞視是因為收視率一樣)。若那些服務收費,或另外自己打廣告的話,那就真的正正是掠奪別人的勞動成果了。

好了,講了那麼久技術,miniweb就先在此打住,容後再談。

[smartads]


以下繼續是談系統設計和版權的問題。

在文章開頭談過,我們很多同行都會寫一些機械人給自己用,如到各大新聞站找新聞,亦由於版權上散佈的關係,一般我們找回來的新聞,都係自用的。

以下這張圖大致解釋這類程式及中介網絡服務公司會做的流程:

裡面的數字,不同排法,以及內容,可以簡單地了解會否侵權及可能需要授權的地方。

2->3->1 或 2->3->4->1 就會有把資料收集,修改,再散佈/分發的問題。因為是service provider主動去收集資料,如果資料無經授權,這個做法就一定是侵權。

而4->2->3->1,只要確保到資料是同原本一樣,只係快取,在新版權法下,service provider就括免,不屬侵權。這就是被動和主動的分別。

而亦因為我們寫機械人去主動收集資料,再分發,所以理論上是侵權,所以絕不能開放給外人或商業使用,因為未授權;但因為基於資料是自己用,自己合理使用,應是無問題。這是本人的理解,但法律問題,最好都係找法律專家。

至於有人話Google都係用機械人找網站,之後給人SEARCH,為何這樣不是侵權?這是因為美國在版權法上有fair use。一.GOOGLE用機械人找網站資料,目的不是再發報,而是收集資料做searching。二.search result所顯示的,並非全頁資料,而只是一小部份,乎合fair use原則。三.google search雖然有cache page,但其cache page和原文件是相同以及並非最新資料,以及只是快取,是合乎fair use。

但Google 之前有版權問題的服務,就是Google News,有報館因不滿Google News收集其下報紙的新聞,令到讀者不再買報紙或去其網站看新聞而提告。

另外,對比外國的 Flipboard / Readitlater 都係用類似2->3->4->1或2->3->1的流程,但為何沒有侵權問題?原因是內置的訂閱,全都有和其版權持有人商談及授權。

而最近,台灣亦有同樣的問題出現。

在版權上,由於資訊愈來愈多,而處理資訊的方法亦都愈來愈多,我們IT人很多時只專注技術,而忽略了應技術可能在現行版權法下是侵權的。

所以,各位同業,除了專注技術發展外,亦需要看緊現行版權法的發展,以免誤入法網(因為商業侵權是刑事罪,要上身的),又或政府訂立了不利業界發展之版權條例修訂。


以下是在某討論串之中, 有關事件的簡要:

現問題在Re-distribution, 而且用來牟利. 香港現行版權法下, proxy cache都係侵權(因此政府才需要修例豁免), 不過無人會提告而已, 另香港版權法跟英國, 是沒有fair use, 就算新的版權法都無fair use. 另外, 就算有fair use, fair use 目的是需要和原本目的不同的. 難怪美國真係要推SOPA才能令到人們關注版權.

Tech友理論上都會看license, 我真係不明白要明白Re-distribution的定義有多困難.

現問題是用人家content牟利, 就算和人商談, 不是知會一聲就算, 而是和人家商談拆賬問題.

如果可以因為係startup而可以侵權, 那我2000年時想成立賣MP3的網站就不會那麼困難, 那我早就發了10世. Startup 不代表可以犯法或不受法律管束. Startup 當然可以犯法, 這是自由, 但犯法被人捉到, 當然要受法律制裁, 這是後果及責任.

另, 在香港, 商業侵權是刑事罪行, 這就要看看值不值得為了錢而犯法, 一切都係搏奕遊戲.

想政府立一些適合startup的例, 是需要大家積極向政府推動. 靠政府自己修改? 到你死那日都不會發生………

4 thoughts on “miniweb疑似侵權事件之技術分析

  • 20th January 2012 at 3:20 PM
    Permalink

    I am afraid that the statement might not be true. “另外,對比外國的 Flipboard / Readitlater 都係用類似2->3->4->1或2->3->1的流程,但為何沒有侵權問題?原因是內置的訂閱,全都有和其版權持有人商談及授權”

    I can add any RSS or Twitter stream to my Flipboard, as well as save any article to ReaditLater. It is not possible for Flipboard /Readitlater to sign contracts with the whole Internet.

  • 21st January 2012 at 1:42 AM
    Permalink

    LoL, when u subscribe a RSS, the services provider actually providing a cache services, they cache the data just because u subscribe them, they did not redistribute the content to order person.wan leung said it clearly, what they provided in the pre-set channels they got agreement with content provider already. while in miniweb case, what it did is cache the data BEFORE ur subscription, pre-set the channels and REDSITRIBUTE to u , AND they did not get any agreement, it’s violating copyrights. That’s totally different. Dont mix it up.Is it so hard to understand those concept ?

  • 21st January 2012 at 1:58 AM
    Permalink

    好問題,這個問題本來是打算另開長文討論,不過既然閣下提到,就在此解答。

    這串其實都有解釋,但好似有人仍不明白:https://www.facebook.com/bencrox/posts/346967428665633

    首先,請問RSS Feed是不是需要subscription? 什麼是subscription? 以及是主動的subscription,還是被動subscription的分別?

    RSS Feed是需要subscription的,而subscription的動作,就是把Feed的URL自己主動加入Reader的動作,為subscription。而subscription所做的,就係accept該RSS feed的End user Terms of use Agreement(版權使用的授權協議)。如Google Search下面有Terms of use,當你使用該站,就自動確認一樣。

    若該站沒有Terms of use或聲明用什麼license發表的話,法律上一律自動使用當地的copyright law。而default copyright,除法律上豁免之外,其他如複制,修改,再發佈,一律屬侵權。

    授權協議,除非該站另有聲明,否則中介人不能代表End user去accpet這份授權協議。

    因此,Flipboard / Readitlater都有做中介人的角色,而那些中介資料,是預設的。若Flipboard / Readitlater無和某網站談授權協議,Flipboard / Readitlater是不能把這網站的feed預設到程式中。而其後user加入的feed,由於授權協議是自行和該站確立,因此在這情況下沒有問題。

    Flipboard / Readitlater能做預設,是因為有和網站商談過授權協議。

    而miniweb是連可讓USER自行加RSS FEED這步都無的,因此我完全不覺得miniweb是等於Flipboard / Readitlater。

    現miniweb的問題係,他預設內置頻道。miniweb有無和其他網站談可轉載的授權協議,而且用來牟利?可以肯定係無,否則為何會有那麼多人投訴?

    miniweb預設其他網站的RSS FEED內容,其RSS FEED的LICENSE有沒有加入可以代表END USER去訂閱的條款?如果那些FEED無這條款,miniweb就需要和其網站談授權協議。

    另外,miniweb有無在end user使用這APP前,聲明給USER聽,miniweb已代表了user accept其他網站的授權協議?這個亦是無,至少我找不到。

    END USER和網站所accept的terms of use,法律上是雙方合約,不代表中介人可代表END USER去簽這份合約,亦不代表網站會容許中介人簽這份合約。

    人家給你在網頁免費看,不代表你可以copy再redistribute給人,情況就和圖書館的書雖免費,但不代表我可把那些書影印改成細小版本去賣錢。

    這個其實係非常簡單的合約和版權概念。

    我們在opensource的世界,常要面對這個問題。其中一個很明顯的,就是如安裝某linux distro,firefox default是沒有加入google, yahoo, bing的search function於右上角的search bar中,這是因為firefox是預裝入系統,由於該linux distro沒有向google, yahoo, bing等申請授權去代表END USER去ACCEPT他們的Terms of use,因此在該distro下,如END USER需要加入GOOGLE SEARCH的FUNCTION,END USER是需要自行去google主頁,再做subscription去加google search入右上角的search bar。

    而在debain下,由於授權問題,最終放棄加入firefox套件,由end user自行安裝。而自行安裝firefox,END USER需要ACCEPT TERMS OF USE,那裡寫了firefox代表end user做了什麼什麼等事項,而firefox亦和其他search engine公司談過授權代表,所以無問題而有預設。

    為何windows(IE)和mac(safari)無這問題?因為人家公司大,在軟體出之前,已經談好授權協議。

  • 21st January 2012 at 2:39 AM
    Permalink

    我都係驚我之前個回覆講得太長氣無人明。

    簡單講,you add any RSS or Twitter stream to my Flipboard, as well as save any article to ReaditLater,其流程如上圖是4->2->3->1,所以無問題。

    Flipboard和ReaditLater預設頻道,其流程是,2->3->1,他們是有同那些頻道的擁有人商談過授權協議;否則,就係侵權。

    而在miniweb只有預設頻道,其流程都係2->3->1,miniweb若沒有和網站商談過授權協議,就係侵權;而且miniweb是商業機構,並且用來牟利,若侵權的話,是可以告刑事侵權。

Leave a Reply