
中國信息協會信息服務網絡委員會文件
中信網培字[2013]019號
關于舉辦“大數據的處理技巧及案例分析”高級研修班的通知
各有關單位:
大數據分析作為數據分析的前沿技術,廣泛應用于物聯網、云計算、移動互聯網等新興產業。為加強大數據分析,創新發展頂層設計和科學布局,推動相關人員更好理解和掌握大數據分析的關鍵技術原理和未來發展方向,使各企事業單位利益最大化,中國信息協會信息服務網絡委員會決定舉辦“大數據的處理技巧及案例分析”高級研修班,并委托北京中建研信息管理咨詢中心承辦,望各單位收到通知后組織相關人員參加。現將有關事宜通知如下:
課程內容
課程模塊 課程主題 主要內容 案例和演示
模塊一 Hadoop的來源和動機 傳統大規模系統存在的問題
Hadoop概述
Hadoop分布式文件系統
MapReduce工作原理
Hadoop集群剖析
Hadoop生態系統對一種新的解決方案的需求
Hadoop的行業應用案例分析
Hadoop在云計算和大數據的位置和關系 Hadoop在淘寶、支付寶的作用
電商眼中的Hadoop和推薦系統。
移動大云項目(big cloud)中的Hadoop
聯通使用Hadoop/Hbase解決3G詳單查詢問題。
模塊二 Hadoop生態系統介紹和演示 Hadoop HDFS 和 MapReduce
Hadoop數據庫之HBase
Hadoop數據倉庫之Hive
Hadoop數據處理腳本Pig
Hadoop數據接口Sqoop和Flume,Scribe DataX
Hadoop工作流引擎 Oozie Yahoo如何使用Hadoop構建大規模搜索的應用
FaceBook 基于Hadoop構建數據倉庫
模塊三 Hadoop組件詳解 Hadoop HDFS 基本結構
Hadoop HDFS 副本存放策略
Hadoop NameNode 詳解
Hadoop SecondaryNameNode 詳解
Hadoop DataNode 詳解
Hadoop JobTracker 詳解
Hadoop TaskTracker 詳解 Hadoop Mapper類核心代碼
Hadoop Reduce類核心代碼
Hadoop 核心代碼
模塊四 Hadoop安裝和部署 Hadoop系統模塊組件概述
Hadoop試驗集群的部署結構
Hadoop 安裝依賴關系
Hadoop 生產環境的部署結構
Hadoop集群部署
Hadoop 高可用配置方法
Hadoop 集群簡單測試方法
Hadoop 集群異常Debug方法 Hadoop安裝部署實驗
Red hat Linux基礎環境搭建
Hadoop 單機系統版本安裝配置
Hadoop 集群系統版本安裝和啟動配置
使用 Hadoop MapReduce Streaming 快速測試系統
Hadoopcore-site,hdfs-site,mapred-site 配置詳解
模塊五 Hadoop和數據庫技術優劣勢對比 Hadoop/Hive 對比 Oracle 在構建數據倉庫上的優劣勢
Hadoop 如何和傳統IT系統配合完成原來不可能的任務 Apache社區版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
模塊六 編寫MapReduce高級程序 使用 Hadoop MapReduce Streaming 編程
MapReduce流程
剖析一個MapReduce程序
基本MapReduceAPI 概念
驅動代碼 Mapper、Reducer
Hadoop流
API 使用Eclipse進行快速開發
新MapReduce API
MapReduce的優化
MapReduce的任務調度
MapReduce編程實戰
如何利用其他Hadoop相關技術,包括Apache Hive, Apache Pig,Sqoop和Oozie等
滿足解決實際數據分析問題的高級Hadoop API Hadoop Streaming 和 Java MapReduce Api 差異。
MapReduce 實現數據庫功能
利用Combiners來減少中間數據
數據壓縮解壓算法
基于統計模型的壓縮算法 :Huffman編碼、算數編碼、PPM算法
基于字典模型的編碼:LZ77算法、LZ78算法、LZW算法
面向實時數據的專用壓縮算法:矩形波串法、后向斜率法、旋轉門壓縮算法。
其他壓縮算法:RLE文本壓縮算法、BWT算法
編寫Partitioner來優化負載平衡
直接訪問Hadoop分布式文件系統(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二進制數據
創建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
模塊七 集成Hadoop到現有工作流
及Hadoop API深入探討 存儲系統
利用Sqoop從關系型數據庫系統中導入數據到Hadoop
利用Flume導入實時數據到Hadoop
ToolRunner介紹、使用MRUnit進行測試
使用Configure和Close方法來進行Map/Reduce設置和關閉 使用FuseDFS和Hadoop訪問HDFS
使用分布式緩存(Distributed Cache)
直接訪問Hadoop分布式文件系統(HDFS)
利用Combiners來減少中間數據
編寫Partitioner來優化負載平衡
模塊八 使用Hive和Pig開發及技巧 Hive和Pig基礎
Hive的作用和原理說明
Hadoop倉庫和傳統數據倉庫的協作關系
Hadoop/Hive倉庫數據數據流
Hive 部署和安裝
Hive Cli 的基本用法
HQL基本語法
使用Oozie的動機
Oozie工作流定義格式 使用JDBC 連接Hive進行查詢和分析
使用正則表達式加載數據
HQL高級語法
編寫UDF函數
編寫UDAF自定義函數
使用Sqoop進行數據分析
使用oozie配置工作流
phpHiveAdmin 安裝和使用
模塊九 實用開發技巧 排序和搜索索引
用Mahout進行機器學習
Term Frequency – Inverse Document Frequency
圖論簡介 Word Co-Occurrenc
用Hadoop表示圖
一個圖算法的實現:單源最短路徑
二、培訓時間及地點
2013年12月13日—12月16日 (13日全天報到) 深圳
2014年 1月14日— 1月17日 (14日全天報到) 北京
“機房建設與管理”的課程(所有內容QQ:931053300)
2013年12月 3日—12月6日 (3日全天報到 )上海
2014年1月 12日—1月15日 (12日全天報到 )海南*海口
“信息安全與網絡攻防”的課程(所有內容QQ:931053300)
2013年12月6日—12月9日 (6日全天報到) 上海
2014月1月9日-1月12日 (9日全天報到) 海南*海口
三、培訓對象
各地政府云計算、物聯網產業相關負責人,各企業CIO、信息中心負責人、技術總監,云計算產業投資團隊,云計算應用開發商,云計算硬件設備供應商,云服務提供商,高校、科研院所云計算項目負責人,設計師、架構師、系統管理員、開發經理、測試經理、產品經理、項目經理等。
四、培訓特色:
注重應用:分析國內實際情況,結合國際、國內成功經驗。Hadoop采用實戰的項目,讓學員在短時間內掌握Hadoop基本運維思路和方法;對Hadoop集群進行管理和優化。并進行高效的大數據清洗和分析。
五、師資力量:
屆時將邀請國家信息化專家咨詢委員會大數據專家、中國計算機學會大數據專家委員會的一線專家,擁有豐富的工程技術經驗,從事大數據的大型項目,擁有資深的技術底蘊和專業背景,并結合實際互動答疑。
六、培訓費用及頒發證書
每人培訓費3900元(含培訓、教材、專家、場地、證書、學習用品費等),食宿統一安排,費用自理。
參加相關培訓并通過考試的學員,可以獲得:《大數據分析工程師》證書。并且可通過國家信息技術人才服務網(www.ciso.net.cn)查詢。
該證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。
咨詢與聯系方式:
此表復印有效;請將回執表及銀行匯款憑證傳真至010-51137523
電 話:010-51458793 51137523 傳 真:010-51137523
電子郵件:cx99@vip.sina.com QQ號:931053300
聯系人:李棟梁(老師)