图书介绍

基于Hadoop的大数据分析和处理【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

基于Hadoop的大数据分析和处理
  • 魏祖宽,刘兆宏编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121317392
  • 出版时间:2017
  • 标注页数:260页
  • 文件大小:43MB
  • 文件页数:269页
  • 主题词:数据处理软件-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

基于Hadoop的大数据分析和处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop的介绍和集群构建1

1.1 Hadoop介绍1

1.1.1云计算和Hadoop1

1.1.2 Hadoop的历史3

1.2 Hadoop构建案例5

1.2.1欧美构建案例6

1.2.2韩国构建案例6

1.3构建Hadoop集群7

1.3.1分布式文件系统8

1.3.2构建Hadoop集群的准备事项11

1.3.3构建伪分布式17

1.3.4分布式集群(Cluster)构建28

1.4 Hadoop分布式文件系统指令35

1.5小结39

第2章 Hadoop分布式处理文件系统40

2.1 Hadoop分布式文件系统的设计40

2.2概观Hadoop分布式文件系统的整体构造42

2.3 Namenode的角色42

2.3.1元数据管理43

2.3.2元数据的安全保管——Edits和Fslmage文件及Secondary Namenode47

2.3.3 Datanode管理50

2.4 Datanode的角色57

2.4.1 block管理57

2.4.2数据的复制和过程60

2.4.3 Datanode添加61

2.5小结63

第3章 大数据和MapReduce65

3.1大数据的概要65

3.1.1大数据的概念66

3.1.2大数据的价值创造67

3.2 MapReduce68

3.2.1 MapReduce示例:词频统计(Word Count)69

3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础72

3.2.3 MapReduce开源代码:词频统计(Word Count)——Ruby语言基础74

3.3 MapReduce的结构76

3.3.1通过案例了解MapReduce结构76

3.3.2从结构性角度进行的MapReduce最优化方案79

3.4 MapReduce的容错性82

3.5 MapReduce的编程83

3.5.1搜索83

3.5.2排序84

3.5.3倒排索引85

3.5.4查找热门词86

3.5.5合算数字86

3.6构建Hadoop:通过MapReduce的案例介绍87

3.6.1单词频率统计MapReduce的编程88

3.6.2 MapReduce——用户界面92

3.7小结97

第4章 Hadoop版本特征及进化98

4.1 Hadoop 0.1 x版本的API99

4.2 Hadoop附加功能103

4.3 Hadoop安全相关功能105

4.4 Hadoop 2.0.0 alpha108

4.4.1安装Hadoop 2.0.0108

4.4.2 Hadoop分布式文件系统的更改117

4.4.3跨时代MapReduce框架:YARN124

4.5小结131

第5章 云计算和Hadoop133

5.1大规模Hadoop集群的构建和案例133

5.2云基础设施服务的登场135

5.2.1 Amazon云服务136

5.3在Amazon EC2中构建Hadoop集群151

5.3.1 Apache Whirr151

5.3.2构建Hadoop集群152

5.4小结155

第6章 Amazon Elastic MapReduce的倍增利用156

6.1 Amazon EMR的活用156

6.1.1 Amazon EMR的概念156

6.1.2 Amazon EMR的构造157

6.1.3 Amazon EMR的特征158

6.1.4 Amazon EMR的Job Flow和Step159

6.1.5使用Amazon EMR前需要了解的事项159

6.1.6 Amazon EMR的实战运用165

6.2小结172

第7章 Hadoop应用下的大数据分析173

7.1 Hadoop应用下的机器学习(Mahout)173

7.1.1设置及编译174

7.1.2 K-means聚类算法176

7.1.3基于矢量相似度的协同过滤181

7.1.4小结187

7.2基于Hadoop的统计分析Rhive(R and Hive)188

7.2.1 R的设置及灵活运用188

7.2.2 Hive的设置及灵活运用191

7.2.3 RHive的设置及灵活运用194

7.2.4小结200

7.3利用Hadoop的图形数据处理Giraph200

7.4小结209

第8章 数据中的DBMS,NoSQL210

8.1 NoSQL出现背景:大数据和Web 2.0211

8.1.1基于Web 2.0的大数据的登场211

8.1.2基于大数据的NoSQL的登场213

8.1.3适合大数据和Web 2.0的数据库NoSQL214

8.2 NoSQL的定义和类别特征218

8.3 NoSQL数据模型概要和分类221

8.4 NoSQL数据模型化223

8.4.1 NoSQL数据模型化基本概念224

8.4.2一般的NoSQL建模方法226

8.5主要 NoSQL的比较和选择230

8.6小结233

第9章 HBase:Hadoop中的NoSQL234

9.1 Hadoop生态界中的HBase234

9.2 HBase介绍239

9.3 HBase数据模型240

9.3.1 map240

9.3.2持续性240

9.3.3分布性240

9.3.4排序性241

9.3.5多维性242

9.3.6稀疏性244

9.4 HBase的数据库模式245

9.5 HBase构造249

9.6 HBase的构建及运行251

9.7 HBase的扩展——DuoBase中的HBase254

9.8 HBase的用户定义索引256

9.8.1 HBase用户定义索引——HFile格式的扩展257

9.8.2 HBase用户定义索引——Region的扩展257

9.9小结260

热门推荐