Fork me on GitHub

CDH-Hadoop 安装

[TOC] [TOC] 一、摘要 此文档主要用于安装 CDH,CDH是Cloudera的软件发行版,包含Apache Hadoop及相关项目。详情请参见官网介绍: 中文:https://cn.cloudera.com/developers/inside-cdh.html 英文:https://www.cloudera.com/products/open-source/apach... [继续阅读...]

Hadoop 原理学习(8)Yarn 概述及其基本原理

[TOC] 一、Yarn 简介 Yarn 是 hadoop 集群的资源管理层。它允许不同的数据处理引擎(如图形处理、交互式 SQL、流处理、批处理)运行在 hadoop 集群中并处理 HDFS 中的数据(移动计算而非数据)。除了资源管理外,Yarn 还用于作业调用。 从资源管理方面看,Yarn 管理着由各个 NodeManager 节点的 vcore(CPU内核)和 RAM(运行时... [继续阅读...]

Hadoop 原理学习(7)HBase 架构与工作原理5 - Region 的部分特性

[TOC] Region Region 是表格可用性和分布的基本元素,由列族(Column Family)构成的 Store 组成。对象的层次结构如下: - Table - Region - Store (由每个 Region 中的列族组成的存储块) - MemStore (每个 Region 中存储在内存中的 Stor... [继续阅读...]

Hadoop 原理学习(6)HBase 架构与工作原理4 - 压缩、分裂与故障恢复

Compacation HBase 在读写的过程中,难免会产生无效的数据以及过小的文件,比如:MemStore 在未达到指定大小便刷新数据以写入到磁盘;或者当已经写入 HFile 的数据被删除后,原数据被标记了墓碑,却仍然存在于 HFile 之中。在这些情况之下,我们需要清除无效的数据或者合并过小的文件来提高读的性能。这种合并的过程也被称为 compacation。 HBase 中使用的... [继续阅读...]

Hadoop 原理学习(5)HBase 架构与工作原理3 - HBase 读写与删除原理

一、前言 在 HBase 中,Region 是有效性和分布的基本单位,这通常也是我们在维护时能直接操作的最小单位。比如当一个集群的存储在各个节点不均衡时,HMaster 便是通过移动 Region 来达到集群的平衡。或者某一个 Region 的请求过高时,通过分裂 Region 来分散请求。或者我们可以指定 Region 的 startKey 和 endKey 来设计它的数据存放范围等等。... [继续阅读...]

Hadoop 原理学习(4)HBase 架构与工作原理2 - HBase 组件

一、HBase 组件概览 Master-Slave 模式: HBase 体系结构遵循传统的 master-slave 模式,由一位掌握决策的主设备和一个或多个真正处理任务的从设备组成。在 HBase 中,主设备称为 HMaster,从设备被称为 HRegionServers,主从设备之间则通过 Zookeeper 共享状态信息。 HBase 组成: 从物理层面,HBase 由 3 个部分... [继续阅读...]

Hadoop 原理学习(3)HBase 架构与工作原理1 - HBase 的数据模型

一、应用场景 HBase 与 Google 的 BigTable 极为相似,可以说 HBase 就是根据 BigTable 设计的,这一点在 BigTable 论文中也能发现。 在 BigTable 论文中提到了它的应用场景: BigTable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。 Google ... [继续阅读...]

Hadoop 原理学习(2)HDFS 架构与工作原理

[TOC] 一、目标 HDFS 全称 Hadoop 分布式文件系统,其最主要的作用是作为 Hadoop 生态中各系统的存储服务。 面对大规模的数据,HDFS 在设计上满足了以下目标: 高度容错性:HDFS 可能由成百上千的服务器构成,任何一个组件都可能失效,因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。 支持大规模数据集:运行在 HDFS 应用具有很大的数据... [继续阅读...]

Hadoop 原理学习(1)Hadoop 各服务的作用简述

[TOC] 注:以下服务为基于安装Hadoop 2.6.0-cdh5.8.3后的所得服务,但并不是全部。 1. HDFS NameNode NameNode是一个中心服务器,负责管理文件系统的namespace以及客户端对文件的访问。 NameNode执行文件系统的namespace操作,比如打开、关闭、重命名文件或目录。同时它还确定block到DataNode节点的映射。 Na... [继续阅读...]

Secure Coding 和阿里巴巴 java 认证证书 [2017年]

Secure coding 认证 Secure coding 认证是公司要求必须要完成的认证,该认证内容主要为 Web 网站安全,其中包括: 注入(Injection) SQL 注入(SQL Injection) 命令注入(Command Injection) Json 注入(JSON Injection) ... [继续阅读...]