离线计算(hadoop)知识模块体系 |
一、Linux基础 |
1)Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程 2)了解机架服务器,采用真实机架服务器部署linux
3)Linux的常用命令:常用命令的介绍、常用命令的使用和练习
4)Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
5)Linux启动流程,运行级别详解,chkconfig详解
6)VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
7)Linux用户和组账户管理:用户的管理、组管理
8)Linux磁盘管理,lvm逻辑卷,nfs详解
9)Linux系统文件权限管理:文件权限介绍、文件权限的操作
10)Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
11)yum命令,yum源搭建
12)Linux网络:Linux网络的介绍、Linux网络的配置和维护
13)Shell编程:Shell的介绍、Shell脚本的编写
14)Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
|
二、大型网站高并发处理 |
1)第四层负载均衡:
2)第七层负载均衡
3)Tomcat、jvm优化提高并发量
4)缓存优化 5)Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理
6)Fastdfs小文件独立存储管理
|
三、初识hadoop |
1)Hadoop生态环境介绍
2)国内外Hadoop应用案例介绍
3)Hadoop 概念、版本、历史
4)Hadoop 核心组成介绍及hdfs、mapreduce 体系结构
5)Hadoop 的集群结构
6)Hadoop 伪分布的详细安装步骤
7)通过命令行和浏览器观察hadoop
|
四、 HDFS体系结构和shell以及java操作 |
1)HDFS底层工作原理
2)HDFS datanode,namenode详解
3)Hdfs shell
4)Hdfs java api
|
五、详细讲解Mapreduce |
1)Mapreduce四个阶段介绍
2)Writable
3)InputSplit和OutputSplit
4)Maptask
5)Shuffle:Sort,Partitioner,Group,Combiner
6)Reducer
|
六、Mapreduce案例案例 |
1)二次排序
2)倒排序索引
3)最优路径
4)电信数据挖掘之--移动轨迹预测分析(中国棱镜计划)
5)社交好友推荐算法
6)互联网精准广告推送 算法
7)阿里巴巴天池大数据竞赛 《天猫推荐算法》案例
8)Mapreduce实战pagerank算法
|
七、Hadoop2.x集群搭建 |
1)Hadoop2.x集群结构体系介绍
2)Hadoop2.x集群搭建
3)NameNode的高可用性(HA)
4)HDFS Federation
5)ResourceManager 的高可用性(HA)
6)Hadoop集群常见问题和解决方法
7)Hadoop集群管理
|
八、分布式数据库Hbase |
1)HBase定义
2)HBase与RDBMS的对比
3)数据模型
4)系统架构
5)HBase上的MapReduce
6)表的设计
7)集群的搭建过程讲解
8)集群的监控
9)集群的管理
10)HBase Shell以及演示
11)Hbase 树形表设计
12)Hbase 一对多 和 多对多 表设计
13)Hbase 微博 案例
14)Hbase 订单案例
15)Hbase表级优化
16)Hbase 写数据优化
17)Hbase 读数据优化
|
九、数据仓库Hive |
1)数据仓库基础知识
2)Hive定义
3)Hive体系结构简介
4)Hive集群
5)客户端简介
6)HiveQL定义
7)HiveQL与SQL的比较
8)数据类型
9)外部表和分区表
10)ddl与CLI客户端演示
11)dml与CLI客户端演示
12)select与CLI客户端演示
13)Operators 和 functions与CLI客户端演示
14)Hive server2 与jdbc
15)用户自定义函数(UDF 和 UDAF)的开发与演示
16)Hive 优化
|
十、elasticsearch分布式搜索 |
1)elasticsearch简介
2)elasticsearch和solr的对比
3)elasticsearch安装部署
4)elasticsearch service wrapper启动插件
5)使用curl操作elasticsearch索引库
6)elasticsearch DSL查询
7)elasticsearch批量查询meet
8)elasticsearch批量操作bulk
9)elasticsearch插件介绍
10)elasticsearch配置文件详解
11)java操作elasticsearch
12)elasticsearch的分页查询
13)elasticsearch中文分词工具的集成
14)elasticsearch优化
15)elasticsearch集群部署
16)elasticsearch+hbase大型搜索系统架构
|
十一、CM+CDH集群管理 |
1)CM + CDH集群的安装
2)基于CM主机及各种服务组件的管理
3)CDH集群的配置和参数调优
4)CDH集群HA配置及集群升级
5)CM的监控管理
6)集群管理的注意事项
7)HUE实战详解
|
十二、 Impala |
1)Impala介绍和架构
2)Impala实战安装,架构,外部shell
3)Impala内部shell,存储分区,SQL
4)Impala SQL、hbase整合,JDBC、性能优化
5)Impala配置及其调优
6)Impala项目应用
|
十三、Oozie |
1)Oozie入门介绍
2)Oozie安装配置及其简单操作
3)hPDL语言学习及流程定义
4)oozie工作流配置及元数据库定义
5)oozie定时任务调度和oozie API操作
|
十四、数据迁移工具Sqoop |
1)介绍 和 配置Sqoop
2)Sqoop shell使用
3)Sqoop-import
4)Sqoop-export
|
十五、Flume分布式日志框架 |
1)flume简介-基础知识
2)flume安装与测试
3)flume部署方式
4)flume source相关配置及测试
5)flume sink相关配置及测试
6)flume selector 相关配置与案例分析
7)flume Sink Processors相关配置和案例分析
8)flume Interceptors相关配置和案例分析
9)flume AVRO Client开发
10)flume 和kafka 的整合
|
十六、Zookeeper 开发 |
1)zookeeper架构
2)zookeeper实战环境
3)zookeeper内部算法详解
4)Zookeeper java api开发
6)Zookeeper实现SOA高可用架构框架
7)Netty 异步io通信框架
8)Zookeeper实现netty分布式架构的高可用
9)Zookeeper分布式锁实现
|
内存计算(spark)知识模块体系 |
一、 Redis缓存数据库 |
1).redis特点、与其他数据库的比较
2.如何安装redis
3.如何使用命令行客户端
4.redis的字符串类型
5.redis的散列类型
6.redis的列表类型
7.redis的集合类型 8.如何使用java访问redis【a.python访问redis,scala访问redis】
9.redis的事务(transaction)
10.redis的管道(pipeline)
11.redis持久化(AOF+RDB)
12.redis优化
13.redis的主从复制
14.redis的sentinel高可用
15.twemproxy,codis实战
16.redis3.x集群安装配置
|
二、Kafka分布式队列系统 |
1)kafka是什么
2)kafka体系结构
3)kafka配置详解
4)kafka的安装
5)kafka的存储策略
6)kafka分区特点
7)kafka的发布与订阅
8)zookeeper协调管理
9)java编程操作kafka
10)scala编程操作kafka
11)flume 和kafka 的整合
12)Kafka 和storm 的整合
|
三、Storm实时数据处理 |
1)Storm的基本概念
2)Storm的应用场景
3)Storm和Hadoop的对比
4)Storm集群的安装的linux环境准备
5)zookeeper集群搭建
6)Storm集群搭建
7)Storm配置文件配置项讲解
8)集群搭建常见问题解决
9)Storm常用组件和编程API:Topology、 Spout、Bolt
10)Storm分组策略(stream groupings)
11)使用Storm开发一个WordCount例子
12)Storm程序本地模式debug、Storm程序远程debug
13)Storm事物处理
14)Storm消息可靠性及容错原理 15)Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API
16)Storm Trident概念
17)Trident state 原理
18)Trident开发实例
19)Storm DRPC(分布式远程调用)介绍
20)Storm DRPC实战讲解
21)Storm和Hadoop 2.x的整合:Storm on Yarn
22)淘宝核心架构套件 23)Storm开发实战: flume+Kafka+Storm+Hbase+redis项目实战,以及多个案例
|
四、Scala |
1)scala解释器、变量、常用数据类型等
2)scala的条件表达式、输入输出、循环等控制结构
3)scala的函数、默认参数、变长参数等
4)scala的数组、变长数组、多维数组等
5)scala的映射、元组等操作
6)scala的类,包括bean属性、辅助构造器、主构造器等
7)scala的对象、单例对象、伴生对象、扩展类、apply方法等
8)scala的包、引入、继承等概念
9)scala的特质
10)scala的操作符
11)scala的高阶函数
12)scala的集合
13)scala数据库连接
|
五、Spark2.0 core大数据编程 |
1)Spark2.0介绍
2)Spark应用场景
3)Spark和Hadoop MR、Storm的比较和优势
4)RDD
5)Transformation
6)Action
7)Spark计算PageRank
8)Lineage
9)Spark模型简介
10)Spark缓存策略和容错处理
11)宽依赖与窄依赖
12)Spark配置讲解
13)Spark集群搭建
14)集群搭建常见问题解决
15)Spark原理核心组件和常用RDD
16)数据本地性
17)任务调度
18)DAGScheduler
19)TaskScheduler
20)Spark源码解读
21)性能调优
22)Spark和Hadoop2.x整合:Spark on Yarn原理
23) Spark Core核心编程
24)RDD内核架构概览
25)RDD的不同数据来源的创建方式详解
26)RDD的操作算子综述与本质分析(转换算子、行动算子)
27)常用操作算子的案例实战
28)RDD持久化实战以及Checkpoint
29)RDD共享变量以及累加器的使用实战 30)RDD简单排序功能(优化之前WordCount程序)以及二次排序的实战
31)Spark实战Top N功能详解
32)Spark任务调度流程整体架构分析详解 33)Spark任务划分流程整体架构分析详解(宽依赖与窄依赖、DAGScheduler源码分析)
34)Spark执行任务相关原理以及源码分析(TaskScheduler、Executor、Task、Shuffle)
35)Spark实战之PageRank
36)性能优化与调优的分析
|
六、 Spark SQL |
1.Spark RDD应用SQL实战
2.RDD转化为DataFrame数据框的方式详解
3.Spark DataFrame数据框操作实战
4.加载和保存数据操作(load与save)
5.JSON数据源实战案例
6.JDBC数据源实战案例
7.Hive数据源实战案例
8.Parquets数据源实战加载数据、自动分区推断、合并元数据
9.内置函数的实战案例
10.开窗函数的实战案例
11.Spark SQL UDF自定义函数实战
12.Spark SQL UDAF自定义聚合函数实战
13.Spark SQL 工作原理详解以及Spark SQL 的源码分析
14.Hive on Spark
|
七、Spark Streaming实时计算 |
1)Spark Streaming和Storm对比讲解
2)Spark Streaming本质原理分析
3)Wordcount程序的实时版本开发
4)Spark Streaming和Spark Core里面context的不同
5)输入DStream和Receiver的讲解
6)不同输入源(Kafka、HDFS)的DStream操作实战
7)基于DStream的window滑动窗口实战案例
8)基于DStream的updateStateByKey实战案例
9)基于DStream的transform实战案例
10)DStream的输出存储操作以及核心函数foreachRDD实战
11)Spark Streaming的持久化实战以及Checkpoint
12)与Spark SQL结合使用实战案例
13)架构原理分析与性能优化
|
人工智能知识模块体系 |
一、语言机器学习 |
1)R语言介绍,基本函数,数据类型
2)线性回归
3)朴素贝叶斯分类
4)决策树分类
5)k均值聚类
6)关联规则探索
7)神经网络
|
二、Mahout机器学习 |
1)介绍为什么使用它,它的前景
2)配置安装(hadoop2.x版本的)编译安装步骤说明
3)推荐
4)分类
5)聚类
|
三、Python |
1)介绍Python以及特点
2)Python的安装
3)Python基本操作(注释、逻辑、字符串使用等)
4)Python数据结构(元组、列表、字典)
5)使用Python进行批量重命名小例子
6)Python常见内建函数
7)更多Python函数及使用常见技巧
8)异常
9)Python函数的参数讲解
10)Python模块的导入
11)Python中的类与继承
12)网络爬虫案例
13)数据库连接,以及pip安装模块
14)Mongodb基础入门
15)讲解如何连接mongodb
16)Python的机器学习案例
|
四、park MLlib机器学习 |
1)介绍b
2)回归算法b
3)分类算法b
4)第四章 推荐系统b
5)第五章 聚类b
|
云计算知识模块体系 |
一、Docker |
1)基本介绍
2)vm docker 对比
3)docker基本架构介绍
4)unfs cgroup namespace
5)进程虚拟化 轻量级虚拟化
6)docker 安装
7)docker 镜像制作
8)docker 常用命令
9)docker 镜像迁移
10)docker pipework
11)docker weave
|
二、虚拟化KVM |
1)虚拟化介绍,虚拟化适用场景等等
2)Qemu Libvirt & KVM
3)安装KVM, Qemu, Libvirt
4)QEMU-KVM: 安装第一个能上网的虚拟机
5)Kvm虚拟机 nat,网桥基本原理
6)kvm虚拟机克隆
7)kvm虚拟机vnc配置
8)kvm虚拟机扩展磁盘空间
9)Kvm快照
10)Kvm 迁移
11)Java,python,c语言编程控制kvm
12)构建自己的虚拟云平台
|
三、云平台OpenStack |
1)openstack介绍和模块基本原理分析
2)openstack多节点安装部署
3)Keystone基本原理
4)glance
5)Cinder
6)Swift
7)Neutron
8)Openstack api 二次开发
|