從事大數(shù)據(jù)需要學(xué)入門知識、Java 基礎(chǔ)、 Scala 基礎(chǔ)、Hadoop 技術(shù)模塊 、Hadoop 項目實戰(zhàn) 、Spark 技術(shù)模塊、大數(shù)據(jù)項目實戰(zhàn),因為大數(shù)據(jù)不是某個專業(yè)或一門編程語言,實際上它是一系列技術(shù)的組合運用。
入門知識主要針對的是新手,在學(xué)習(xí)之前需要先掌握基本的數(shù)據(jù)庫知識。Java 語言具有功能強大和簡單易用兩個特征,跨平臺應(yīng)用能力比 C、C++ 更易用,更容易上手。同時還具有簡單性、面向?qū)ο?、分布式、健壯性、安全性、平臺獨立與可移植性、多線程、動態(tài)性等特點。要的一點是 Hadoop 是用 Java 編寫的。
Scala 是一種多范式的編程語言,其設(shè)計的初衷是要集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。由于 Scala 運行于 Java 平臺(Java 虛擬機),并兼容現(xiàn)有的Java 程序,所以 Scala 可以和大數(shù)據(jù)相關(guān)的基于 JVM 的系統(tǒng)很好的集成。
Hadoop能搭建大型數(shù)據(jù)倉庫,PB 級別數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務(wù)。學(xué)完理論就要進行動手實戰(zhàn)了,Hadoop 項目實戰(zhàn)可以幫助加深對內(nèi)容的理解,并鍛煉動手能力。Spark 和 Hadoop 都是大數(shù)據(jù)框架。Hadoop 提供了 Spark 所沒有的功能特性,比如分布式文件系統(tǒng),而 Spark 為需要它的那些數(shù)據(jù)集提供了實時內(nèi)存處理。所以學(xué)習(xí) Spark 也非常必要。
當(dāng)然企業(yè)級的實戰(zhàn)項目也是很重要的,這是對常用技能的系統(tǒng)運用,例如使用常用的機器學(xué)習(xí)進行建模、分析和運算,可以幫我積累到一定的經(jīng)驗。