課程詳情
課程簡(jiǎn)介:
數(shù)據(jù)的概念 2. 數(shù)據(jù)的內(nèi)容 3. 數(shù)據(jù)屬性及數(shù)據(jù)集 4. 數(shù)據(jù)特征的統(tǒng)計(jì)描述 5. 數(shù)據(jù)的可視化 6. 數(shù)據(jù)相似與相異性的度量 7. 數(shù)據(jù)質(zhì)量 8. 數(shù)據(jù)預(yù)處理
ETL大數(shù)據(jù)分析就業(yè)辦
第一階段內(nèi)容
模塊一 數(shù)據(jù)倉(cāng)庫架構(gòu)概述
1. 數(shù)據(jù)倉(cāng)庫概述
2. 數(shù)據(jù)庫
3. 混合型數(shù)據(jù)中心之大數(shù)據(jù)平臺(tái)
4. 混合型數(shù)據(jù)中心參考架構(gòu)
模塊二 ORACLE-SQL基礎(chǔ)
1. 數(shù)據(jù)庫控制 2.?數(shù)據(jù)庫對(duì)象
模塊三 ORACLE-PLSQL
1. SQL語言的基本結(jié)構(gòu)? 2. PLSQL高級(jí)編程
模塊四 數(shù)據(jù)挖掘理論基礎(chǔ)
1. 數(shù)據(jù)的概念 2. 數(shù)據(jù)的內(nèi)容 3. 數(shù)據(jù)屬性及數(shù)據(jù)集 4. 數(shù)據(jù)特征的統(tǒng)計(jì)描述 5. 數(shù)據(jù)的可視化 6. 數(shù)據(jù)相似與相異性的度量 7. 數(shù)據(jù)質(zhì)量 8. 數(shù)據(jù)預(yù)處理
模塊五 大數(shù)據(jù)ETL基礎(chǔ)
1. 從數(shù)據(jù)庫到數(shù)據(jù)倉(cāng)庫 2. 數(shù)據(jù)倉(cāng)庫的架構(gòu) 3. 數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)模型 4. ETL技術(shù) 5. 聯(lián)機(jī)分析處理--OLAP 6. OLAP的數(shù)據(jù)模型
第二階段內(nèi)容
模塊一 大數(shù)據(jù)的加工與處理
1. 抽取工具的特征 2. KETTLE的使用
模塊二 數(shù)據(jù)挖掘的應(yīng)用
1. 數(shù)據(jù)挖掘的起源 2. 數(shù)據(jù)挖掘的定義 3. 數(shù)據(jù)挖掘的任務(wù) 4. 數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程
模塊三 Linux
1. Linux系統(tǒng)詳解 2. Linux系統(tǒng)進(jìn)程 3. Linux啟動(dòng)流程 4. vi、vim編輯器 5. Linux用戶和組賬戶管理 6. Linux磁盤管理 7. Linux系統(tǒng)文件權(quán)限管理 8. Linux的RPM軟件包管理 9. yum 10. Linux網(wǎng)絡(luò) 11. Shell編程 12. Linux上常見軟件的安裝
模塊四 Hadoop
1. Hadoop概述 2. HDFS 3. Mapreduce 4. Mapreducer案例 5. Hadoop2.x集群
第三階段內(nèi)容
模塊一 HBase
1. HBase與RDBMS的對(duì)比 2. 數(shù)據(jù)模型 3. 系統(tǒng)架構(gòu) 4. HBase上的MapReduce 5. 表的設(shè)計(jì) 6. 集群的搭建過程講解 7. 集群的監(jiān)控 8. 集群的管理 9. HBase Shell以及演示 10. Hbase樹形表設(shè)計(jì) 11. Hbase一對(duì)多和多對(duì)多表設(shè)計(jì) 12. Hbase微博案例 13. Hbase訂單案例 14. Hbase表級(jí)優(yōu)化 15. Hbase數(shù)據(jù)讀寫優(yōu)化
模塊二 Hive
1. 數(shù)據(jù)倉(cāng)庫基礎(chǔ)知識(shí) 2. Hive定義 3. Hive體系結(jié)構(gòu)簡(jiǎn)介 4. Hive集群 5. 客戶端簡(jiǎn)介 6. HiveQL定義 7. HiveQL與SQL的比較 8. 數(shù)據(jù)類型 9. 外部表和分區(qū)表 10. DDL與CLI客戶端演示
第四階段內(nèi)容
模塊一 Sqoop
1. 配置和介紹Sqoop 2. Sqoop shell使用 3. Sqoop- import 4. DBMS- hdfs 5. DBMS- hive 6. DBMS- hbase 7. Sqoop- export
模塊二 Flume
1. flume簡(jiǎn)介-基礎(chǔ)知識(shí) 2. flume安裝與測(cè)試 3. flume部署方式 4. flume source相關(guān)配置及測(cè)試 5. flume sink相關(guān)配置及測(cè)試 6. flume selector 相關(guān)配置與案例分析 7. flume Sink Processors相關(guān)配置和案例分析 8. flume Interceptors相關(guān)配置和案例分析 9. flume AVRO Client開發(fā) 10. flume和kafka 的整合
模塊三 Zookeeper
1. Zookeeper java API開發(fā) 2. Zookeeper RMI高可用分布式集群開發(fā) 3. Zookeeper REDIS高可用監(jiān)控實(shí)現(xiàn) 4. NETTY異步IO通信框架 5. Zookeeper實(shí)現(xiàn)NRTTY分布式架構(gòu)的高可用
第五階段內(nèi)容
模塊一 Hue
1. Cloudera Hadoop Manager的分布式集群部署搭建 2. 基于文件瀏覽器(File Browser)訪問HDFS 3. 基于Hive編輯器來開發(fā)和運(yùn)行Hive查詢 4. 基于Solr進(jìn)行搜索的應(yīng)用,并提供可視化的數(shù)據(jù)視圖,以及儀表板(Dashboard) 5. 基于Impala的應(yīng)用進(jìn)行交互式查詢 6. Spark編輯器和儀表板(Dashboard) 7. Oozie編輯器,可以通過儀表板提交和監(jiān)控Workflow、Coordinator和Bundle
模塊二 Python編程
1.介紹Python以及特點(diǎn) 2. Python的安裝 3. Python基本操作(注釋、邏輯、字符串使用等) 4. Python數(shù)據(jù)結(jié)構(gòu)(元組、列表、字典) 5. 使用Python進(jìn)行批量重命名 6. Python常見內(nèi)建函數(shù) 7. Python函數(shù)及使用常見技巧 8. Python異常的處理 9. Python函數(shù)的參數(shù)講解
第六階段內(nèi)容
模塊一 Scala編程
1. scala解釋器、變量、常用數(shù)據(jù)類型等 2. scala的條件表達(dá)式、輸入輸出、循環(huán)等控制結(jié)構(gòu) 3. scala的函數(shù)、默認(rèn)參數(shù)、變長(zhǎng)參數(shù)等 4. scala的數(shù)組、變長(zhǎng)數(shù)組、多維數(shù)組等 5. scala的映射、元組等操作 6. scala的類,包括bean屬性、輔助構(gòu)造器、主構(gòu)造器 7. scala的對(duì)象、單例對(duì)象、伴生對(duì)象、擴(kuò)展類、apply方法
模塊二 Spark-Score
1. Spark介紹 2. Spark應(yīng)用場(chǎng)景 3. Spark和Hadoop MR、Storm的比較和優(yōu)勢(shì) 4. RDD 5. Transformation 6. Action 7. Spark計(jì)算PageRank 8. Lineage 9. Spark模型簡(jiǎn)介 10. Spark緩存策略和容錯(cuò)處理 11. 寬依賴與窄依賴
第七階段內(nèi)容
模塊一 Spark-Streaming
1. Spark Streaming:數(shù)據(jù)源和DStream 2. sparksql 編程實(shí)戰(zhàn) 3 spark的多語言操作 4. spark新版本的新特性
模塊二 Kafka
1. kafka是什么 2. kafka體系結(jié)構(gòu) 3. kafka的存儲(chǔ)策略 4. java編程操作kafka 5. scala編程操作kafka 6. flume和kafka的整合 7. Kafka和storm的整合
模塊三 Storm
1. Storm的基本概念 2. Storm的應(yīng)用場(chǎng)景 3. Storm集群搭建 4. Storm配置文件配置項(xiàng)講解 5. 集群搭建常見問題解決
模塊四 Hadoop項(xiàng)目實(shí)戰(zhàn)
1.項(xiàng)目實(shí)戰(zhàn)一 2.項(xiàng)目實(shí)戰(zhàn)二
數(shù)據(jù)倉(cāng)庫項(xiàng)目簡(jiǎn)介: 整合各個(gè)業(yè)務(wù)線數(shù)據(jù),為各個(gè)業(yè)務(wù)系統(tǒng)提供統(tǒng)一&規(guī)范的數(shù)據(jù)出口。是整個(gè)大數(shù)據(jù)系統(tǒng)中的關(guān)鍵,是所有數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作的基礎(chǔ)。
數(shù)倉(cāng)項(xiàng)目開發(fā)流程: 技術(shù)選型-數(shù)據(jù)采集-數(shù)倉(cāng)設(shè)計(jì)-數(shù)倉(cāng)開發(fā)-任務(wù)調(diào)度-項(xiàng)目?jī)?yōu)化。 項(xiàng)目性能指標(biāo): 滿足日增100T+數(shù)據(jù)處理;查詢速度滿足秒級(jí)查詢。 項(xiàng)目收獲: 學(xué)習(xí)并掌握數(shù)據(jù)倉(cāng)庫的分層設(shè)計(jì)&數(shù)據(jù)倉(cāng)庫從0~1的構(gòu)建過程。
熱線監(jiān)控項(xiàng)目簡(jiǎn)介: 對(duì)整個(gè)監(jiān)控系統(tǒng)的一個(gè)可視化數(shù)據(jù)大屏展示,分別體現(xiàn)出訴求業(yè)務(wù)總量,轉(zhuǎn)辦案件排名,資訊業(yè)務(wù)重量,來電資訊分類等數(shù)據(jù)進(jìn)行分析。
學(xué)校地址:山東.青島