森羅薈萃所: 大數據還夯嗎？（2016年大數據光景）

原文，作者為FirstMark創業投資者、Data Driven NYC與Hardwired NYC創立者，Matt Turck（馬特·圖爾克），寫於2016年2月1日。 (http://mattturck.com/2016/02/01/big-data-landscape/)

在喜愛自己閃耀新穎物件的科技新創企業中，「大數據」一詞已身處在「3年前」就逐漸聽到、不在引起羨慕的位置了，當Hadoop在2006年被建立，「大數據」概念的關注在2011和2014年之間某個時刻達到狂熱。那是一段，至少在新聞和產業討論會中，大數據還是新「黑馬」、「黃金」或是「石油」的日子。然而，至少在我與產業中人們的對談中，大夥都逐漸有已經達到某種高度的感覺。2015年大概是資料世界中的屌咖們（到了一個程度真有這麼一個東西）開始往前到著迷在AI上以及它許多相關概念和議題上的一年：機器智慧、深度學習等。

　　除了意義探討和無可避免的新興技術發展週期，我們第四年度的「大數據光景」是一個往後退一步很好的機會，思量過去一年發生了哪些事並深思這個產業的未來。

　　在2016年，大數據還「夯」嗎? 我們，看下去。

企業科技 = 花功夫

有關大數據好玩的地方是，它在第一期新興科技類型中並不是很有機會的候選人。

　　在科技圈外接收到廣泛注目的產品和服務比較會是那些人們可以碰觸和感受、或是和這些有關：手機APP、社群網絡、可戴式產品、虛擬實境等等。

　　但大數據，基本上，是···管道。的確，大數據強化了許多顧客或是企業使用者經驗，但它的核心，它是企業科技：資料庫、分析技術等等，是沒有幾人可以觀看在背後運行的東西。

　　而且，任何一個在那世界裡面工作的人都曉得，在企業裡新科技的採用並不是一夕之間就會發生。大數據現象早期是被相當具有共生關係的大型網路公司所驅動的（特別是在Google、Yahoo、Facebook、Twitter、LinkedIn等裡頭），他們都是大數據技術核心組合的重度使用者和創立者。

　　這些公司突然得面對前所未有數量的資料，沒有既有的基礎架構然後能夠雇用一些現有最好的工程師，因此他們本質上是開始打造他們所需的科技。開源風氣開始迅速地展開而且許多這些新科技會讓更廣闊的領域所分享。一段時間後，這群工程師一些人離開了大型公司並開始他們自己的大數據新創公司。其他「原生數位」公司，包含許多發育中的獨角獸，開始發現像那些大型網路公司的相似需求，並且也沒有既有的基礎架構。早期的成功導引出更多的企業活動以及創投募資，然後整件事就這樣開始了。

　　快速往前一些年，我們現在身處在更大、但也更巧妙機會的時刻裡：由更廣領域公司，從中型到相當大型跨國公司的大數據科技採用。不像「原生數位」公司，這些公司一開始不會有奢華的起頭。他們有更多得失去：在這公司的大部分中，現有的科技基礎架構「完成了把戲」。一家公司或許沒掌握該有的技術，並且在組織內的許多人瞭解他們會需要趕快跟上時代的節奏而不是慢慢來，但他們不會徹夜就把他們完成任務的重要系統給拆掉、取代。任何進化都需要程序、預算、專案管理、導航員、部門佈署、全面的安全稽核等等。大型公司會清楚地在給剛發育的新創公司處理他們基礎架構重要部分的事上謹慎。然後，基於一些企業家的放不下心，許多（大部分？）公司依然頑固地拒絕將他們的資料轉移到雲端裡面，至少有股票上市的。

　　另外要曉得的關鍵是：大數據的成功不在於使用一項科技（像是Hadoop或是任何其他東西），相反地，需要把科技、人才和程序的裝配線放在一起。你需要捕捉資料、儲存資料、清理資料、查詢資料、分析資料、視覺化資料。有一些會是產品來完成、有一些會是人來完成。每件事都需要無縫整合。至終，要讓全部開始運作，整家公司，從高層管理開始，需要承諾打造一個資料導向的文化，其中大數據不是一件「事」，而是一件「必需品」。

　　換句話說，大量的花功夫。

佈署階段

　　上面解釋了為什麼，在許多備受矚目的新創公司開始運作之後的幾年間以及頭條－抓住被投放的創投投資，我們才剛抵達大數據的佈署和初熟階段。

　　更往前－想想大公司（稱他們為在傳統科技採用週期的「早期採用者」）2011到2013年之間某時段開始偕同大數據科技的早期實驗，打開Hadoop導航（常常因為它是一件下趴可去做的事）或是嘗試點解決方案（point solutions）。他們聘請所有種類工作職稱不曾在以前存在過的人（像是「資料科學家」或是「資料長」）。他們歷經許多類型的努力，包括傾倒他們所有的資料到一個中央儲蓄池或是說「資料湖」，有時期望奇蹟會發生（通常不會）。他們漸漸建立起內部能力，與不同廠商實驗，從領導者到生產上的部門部署以及現正深思（或者，更罕見地，實施）全企業的推行。在許多例子中，他們處在一個重要的反趨點，在建立大數據基礎設施許多年後，他們沒有（尚未）太多在這事上可以展現，至少從商業使用者在他們公司裡的觀點。不過有很多吃力不討好的項目已經被執行，而不均勻有效、諸多應用被佈署在核心架構上方的階段正在開始。

　　大公司的下一方向（稱他們為在傳統科技採用週期的「早期採用者」）已變成大部分待在場外上，而且仍在以某種程度的困惑觀看這大數據整件事。直到最近，他們曾一度希望一家大型廠商（譬如說，IBM）會提供一種一站式方案，但它開始看起來或許不會很快發生。他們像我們大數據光景帶著恐懼看著某種事物，然後想知道他們是否真的需要與全部這些常常聽起來一樣的新創公司合作，然後一起修補這些方案。他們正嘗試摸索他們是否應該有次序以及循序漸進地做事，先打造基礎設施，接著分析技術然後應用層，或者一次同時做所有事，或是直等到某種更便捷的東西出現在地平線上。

生態系統正在成熟

　　同時間，在新創公司／廠商一方，大數據公司的整個第一波（那些創立於，我們說，2009年到2013年）已經招引到許多創投融資、調整他們的組織範疇、從早期部署中的成功與失敗學功課，然後現在能提供更成熟、經得起戰場考驗的產品。有少數現在是上市公司（包括HortonWorks還有New Relic在2014年12月的首次公開募股）同時其他公司（Cloudera、MongoDB等）已經募得數百萬美元。

　　這時候的創投依然充滿朝氣，在2016年數週的頭幾週可看到給後階段大數據新創公司的大型創立融資輪紛紛宣布的騷動：DataDog（9400萬美金）、BloomReach（5600萬美金）、Qubole（3000萬美金）、PlaceIQ（2500萬美金）等等。大數據新創公司在2015年收到了66億4000萬美金的創投投資，是科技創投總數的11%。

　　併購活動維持在適度的情況（從我們最後一次景色，我們摘錄了35件收購，請看以下摘錄）。

　　隨著此刻企業活動和金錢的持續流入、少數幾個合理離開、以及越發活躍的科技巨頭（特別是Amazon、Google和IBM），此時公司的數量是維持上升的，然後這裡是2016年大數據光景看起來的樣子：

圖片取自 http://mattturck.com/2016/02/01/big-data-landscape/

要以完整尺寸看景色，點擊這裡。要觀看公司完整清單，點擊這裡。（註：這是2.0版的光景和清單，兩者皆在2016年2月12日修訂）

顯而易見地，現有非常多公司，還有許多其他公司沒有被包含進這個圖裡面，刻意或是沒有（拉到此篇貼文的底部可看到方法論上的幾個標註）。

　　以基本趨勢來說，行動（指創新、新產品和公司的推行）已經逐漸從左方移到右方，從基礎設施層（基本上是開發者／工程師的世界）到分析層（分析師和資料科學家的世界）到應用層（商業使用者和消費者的世界），其中「大數據原生應用」已正快速地浮出水面－或多或少跟尋我們預期的。

大數據基礎設施：依然許多創新

自從Google在MapReduce和BigTable上的論文讓Doug Cutting和Mike Cafarella去創立Hadoop，已經過了十年，大數據的基礎設施層也有了大部分時間去熟成並且一些關鍵問題現也在那兒被解決。

　　然而，基礎設施領域依舊以創新在蓬勃發展，在很大部分上是透過大量的開源活動。

　　2015年無疑是Apache Spark之年，一個在－記憶體處理發揮成效的開源架構，它開始得到許多高度關注，在我們發佈我們上一個版本景色的時候。從那時候，Spark已經被許多各式各樣的玩家給擁抱，從IBM到Cloudera，給了它不少信譽。Spark是有意義的因為它有效地處理了一些會減緩Hadoop使用速度的重要議題：它更快速（一些檢驗程式顯示Spark比Hadoop的MapReduce快10到100倍）、更容易撰寫、並且良好地讓自己合適於機器學習。（要知道更多Spark，來看我們Data Driven NYC每月活動與Ion Stoica－重要Spark先鋒者之一、Databricks雲端公司Spark執行長－的爐邊談話，這裡）。

　　其它令人興奮的架構持續露出檯面並且獲得驅動力，像是Flink、Ignite、Samza、Kudu等。有些人認為領導階級覺得Mesos（一個對著你的資料中心撰寫程序好像它是一個單一的來源池）整體免去了Hadoop的需求（可觀看Stefan Groschupf，Datameer執行長，在這項議題上的優質談話，這裡；也可觀看Mesosphere的Tobi Knaupf，這裡）。

　　甚至在資料庫的世界裡，似乎已經看見更多浮現出來的玩家多於市場大概能夠支撐的量，許多好玩的事情都正在發生，從圖形資料庫的成熟（觀看Emil Eifrem，Neo4j執行長，這裡）、特定資料庫的發行（觀看Paul Dix，時間序列資料庫InfluxDB創辦人，這裡）到CockroachDB的浮現，一種受Google Spanner所激發的資料庫，作為提供給SQL和NoSQL世界最好的選擇被提出（觀看Spencer Kimball，Cockroach Labs執行長，這裡）。資料倉儲也正在進化（觀看Bob Muglia，雲端資料倉儲Snowflake執行長，這裡）。

大數據分析：現在與AI一起

　　在大數據分析過去幾個月中的一個大趨勢已經是人工智慧上的逐升關注（在各種各樣的形式與類型）以協助分析大規模資料並衍生出預測性的洞察。

　　AI最近的崛起相當可說是大數據的孩子。深度學習背後的一些演算法（這幾日在AI界得到最多的注意）大部分是數十年前就已被創立，但它什麼都不是直到它們能被夠便宜和快速地應用到大規模資料以致它們發展到它們完全的潛力（觀看Yann LeCun，在Facebook的深度學習先鋒者和AI之首，這裡）。AI和大數據之間的關係是那樣緊密以致有一些產業專家認為AI已經哀痛懊悔地「與大數據陷入熱戀」（觀看Gary Marcus，Geometric Intelligence執行長，這裡）。

　　接著，AI現在正幫助大數據遵守它的諾言。在分析技術中AI／機器學習上的逐升關注可邏輯契合到大數據進化的下一步：現在我已經有全部的資料，有什麼洞察我可以從中萃取？當然，那就是為什麼資料科學家走了進來－從一開始他們的角色就已是實踐機器學習不然就是建立出模型好讓資料有價值。但逐漸更多地，機器智慧正協助著資料科學家－純粹藉由操作資料、浮出產品能夠萃取出數學公式（觀看Stephen Purpura，Context Relevant創辦人，這裡）或是自動建立和建議最有可能產生最好結果的資料科學模型（觀看Jereny Achin，DataRobot執行長，這裡）。新AI公司的收穫提供了可以自動化複雜實體之辨認的產品，像是影像（觀看Richard Socher，MetaMind執行長，這裡；Matthew Zeiler，Clarifai執行長，這裡；以及David Luan，Dextro執行長，這裡），或是提供強大的預測技術（譬如，我們的投資公司HyperSicence，目前還在神隱中）。

　　當基於非監督式學習的產品在廣傳並進步，觀看它們與資料科學家的關係將如何發展是會相當有趣的－朋友或是敵人？AI當然不會很快就將資料科學家給取代，但還是可預期看見資料科學家例行執行、較簡單任務的逐升自動化，並且獲得巨大的生產力作為結果。

　　無論如何，AI／機器學習並不是唯一在大數據分析中值得記下的趨勢。大數據BI平台的常態熟成和它們逐升有力的即時能力也是個令人興奮的趨勢（觀看Amir Orad，SiSense執行長，這裡；以及Shant Hovespian，Arcadia Data技術長，這裡）。

大數據應用：真正的加速

　　當一些核心的基礎設施挑戰被解決，大數據的應用層正快速地建立起來。

　　在企業裡面，各式各樣的工具已出現要幫助企業使用者橫跨許多核心功能。舉例來說，大數據在銷售和行銷上的應用幫助辨明出哪些客戶最有可能購買、回購或是離開，藉由操作大量的內部和外部資料，並逐逼即時。顧客服務應用幫助個人化服務；HR應用幫助找出如何吸引和留住最好的員工等等。

　　特定大數據應用以相當垂直的方式不斷突然出現，從醫療照護（最有名的就是基因組學和藥物研究）到金融、時尚圈、執法系統（觀看Scott Crouch，Mark43執行長，這裡）。

　　兩個趨勢特別值得提一下。

　　第一，許多這些應用屬「大數據原生」，在那裏頭，它們自己被建立在最新的大數據技術上，並且代表一種給顧客有趣的方式去有效使用大數據而不需要佈署基底的大數據技術，因為那些已經以「在一個盒子裡」的方式呈現，至少對於那個特別的功能－舉例來說，我們的投資公司ActionIQ是建立在Spark上（或是基於它的變化體），因此它的客戶可以在他們的行銷部門操作Spark的能力但不需要真正他們自己部署Spark－在這個案例中沒有「裝配線」。

　　第二，AI也在應用層展現了強悍的面貌。譬如說，在以智取勝的安全性遊戲當中，AI正被擴充性地使用以在駭客中取得優勢且可即時辨認網路攻擊並與之戰鬥。「人工智慧型」對沖基金也開始出現。整個AI導向的數位輔助產業已經在過去一年現形，自動化任務從排程會議（觀看Dennis Mortensen，x.ai執行長，這裡）到購物、到就是給你一切。這些解決方案依賴在AI上的程度變化相當大，從幾近100%的自動化到「人類身處在環節裡面」的情形，就是人的能力被AI所擴增－不論怎樣，趨勢，顯而易見。

結論

　　在許多方面，我們仍在大數據現象的早期收穫裡。當它已風行數年，建立基礎設施以儲存和處理大量資料只是第一個階段。AI／機器智慧正在引領一個向著大數據應用層浮出的風向。大數據和AI的結合會驅使橫跨相當是每一個產業、不可思議的創新。從那觀點來看，大數據的機會可能比人們所認為的還要大。

　　當大數據持續在成熟，然而，名詞本身可能會消失，或是變得老舊以致沒有人會在使用它。這是成功的驅使科技相當諷刺的命運，它們變得廣布、然後無所不在，接著至終不再存在。

____________________

註：

1)第一且最重要的，要給我們FirstMark夥伴Jim Hao一個大大的感謝，他在這個專案上做了許多的推力與助力，而且是大大有幫助。

2)當它變得非常清楚且快速，就是我們沒辦法將所有我們想放到圖上的公司給納進來，我們最後給予有募得一輪或是好幾輪創投資助的新創公司優先權－當然那不是項完美的準則（但，喂，我們是創投公司啊...），而且我們也偶爾會在編輯上下決定將早期階段的新創公司給包含進來當我們認為他們特別的有趣時。

3)如同以往，在製作這張圖的過程時，我們會因為未加注意而漏掉一些不錯的公司，這是無可避免的。我們漏掉你的了嗎？請不吝在底下回應追加想法和建議。

4)這張圖是png格式，它在縮放時等等會保存整體質量。

5)免責聲明：我是個透過FirstMark有在這張光景圖中提到的幾家公司投資的人，特別是：ActionIQ、Cockroach Labs、Helium、HyperScience、Kinsa、Sense360和x.ai。其他FirstMark有在這張圖上出現的投資公司包括 Bluecore、Engagio、HowGood、Payoff。我自己是個在Datadog和LendingClub（IPO前）的小小股東。

6)有名的收購（任何大小）包括Revolution Analytics（2015年1月被微軟收購）、Pentaho（2015年2月被日立收購）、Mortar（2015年2月被Datadog收購）、Acunu和FoundationDB（2015年3月都被蘋果收購）、AlchemyAPI（2015年3月被IBM收購）、Amiato（2015年4月被亞馬遜收購）、Next Big Sound（2015年5月被Pandora收購）、1010Data（2015年8月被Advance/Newhouse收購）、Informatica（2015年8月被一家由Permira基金和Canada Pension Plan Investment Board(CPPIB)所掌控的公司給收購／拿取為私有）、Boundary（2015年8月被BMC收購）、Bime Analytics（2015年10月被Zendesk收購）、CleverSafe（2015年10被IBM收購）、Lex Machina（2015年11月被LexisNexis收購）以及DataHero（2016年1月被Cloudability收購）。

2016年3月19日 星期六

大數據還夯嗎？（2016年大數據光景）

2016年3月19日星期六