咨询热线:    40000-53353(全国)    0571-28976118(浙江)    
 

Hadoop实战案例培训(Cloudera) 预约试听

 

课程长度:10天/60小时


学员基础:

计算机相关专业;具备基本Linux系统管理经验;具备编程经验的开发人员;熟悉Java;不需要事先掌握Hadoop相关知识。


课程目标:

通过考试可获得 Cloudera Certified Administrator for Apache Hadoop (CCAH) ;Cloudera Certified Developer for Apache Hadoop (CCDH) 证书


培训内容:


第一部分:Hadoop基础

 · 初识Hadoop及其分布式文件系统

   Hadoop是什么;Hadoop可以做什么;Hadoop的分布式文件系统(HDFS)及其特点,HDFS如何承载应用

 · 搭建伪分布式的Hadoop环境

   如何利用一台Linux机器搭建你的第一个Hadoop环境 ? 如何从Hadoop的日志中发现它的故障、异常等

 · 开发你的第一个MapReduce程

   函式编程与MapReduce,MapReduce程序的主题结构;在Eclipse上搭建MapReduce开发环境;

   如何运行你MapReduce程序;用ANT自动化MapReduce程序的部署

 · 在企业内网中快速搭建真正分布式的Hadoop环境

   如何在企业内网中快速搭建一个真正的分布式的Hadoop环境?涉及YUM源,部署脚本等。

 · HIVE基础与实践

   HIVE的架构和实现方式;HIVE Metastore的类型和实现方式;HQL语言基础;如何用HIVE做大数据分析等

 

第二部分:深入解析HDFS

  · 深度解析HDFS系统配置

    HDFS及Linux中与HDFS相关的配置项详解,常用的HDFS必配项及其在实践中的设置方法

  · 玩转HDFS

    如何管理和维护HDFS,查找HDFS的基本命令,如何获取帮助,HDFS中的两个最常用命令集dfs和dfsadmin

  · 深度解析HDFS的五大关键特性

    EditLog、Checkpoint、 Rebalance、Rack Awareness和Replication

  · 深度解析HDFS的读写过程和性能优化

    HDFS在文件读写过程(结合HDFS源代码),HDFS的租约机制与无锁读写特性,如何从操作系统磁盘、

    文件系统和网络等几个层面来优化的HDFS性能

  · Trouble Shooting HDFS

    HDFS的常见问题,Namenode的常见问题及其处理方法 , 元数据损坏时如何恢复,Datanode的常见问题及其处理方法

  · 深入浅出Zookeeper

    Paxos与Google的分布式 协同 机 制 , Chubby与Zookeeper, Zookeeper的 原 理、部署方法和应用技巧

  · Hadoop Ha理论与实践

    Hadoop HA的前世今生,Hadoop HA中是否存在数据丢失 的 风险 , Hadoop2中的 两 种HA方 式 QJM和 NFS, QJM方案配置演示

  · HDFS RAID与HttpFS

  · 案例分析:制作基于HDFS的对象存储


第三部分:深入解析MapReduce

  · 深度刨析JobTracker和TaskTracker

    JobTracker和TaskTracker的工作原理详解

  · MapReduce经典案例刨析与开发思想

    函式编程的回顾与深化,MapReduce典 型 程 序 分析:Wordcount、Top-k与Join

  · 定制你的MapReduce

    Inputformat、OutputFormat和Partitioner等

  · 让Ma pRed uce 程序飞速运行(一)

    深度解析 Split、Sort、 Shuffling、 Merge四 大MapReducce程序执行过程中所经历的四大关键过程,

    如何利用这4大过程来优化MapReduce程序

  · 让Ma pRed uce 程序飞速运行(二)

    Combiner原理及其在MapReduce中的作用 ,MapReduce实际案例分析

  · MapReduce程序开发的高级技巧

    用Python等第三方语言快速编写MapReduce程序、自动串接多个Mapper 和Reducer、

    容忍一定程度的失败任务和错误记录等

  · 进一步玩转MapReduce的平台级优化

    MapReduce程序的主要性能瓶颈及各种“坑”,MapReduce的主要性能配置项及其配置方法

  · YARN和MRv2选讲

    案例分析:挖掘运营商中的大数据