HDFS基础

HDFS(Hadoop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

1. HDFS的优缺点

1.1 优点

高容错性
- 数据自动保存多个副本。它通过增加副本的形式，提高容错性。
- 某一个副本丢失以后，它可以自动恢复。
适合处理大数据
- 数据规模: 能够处理数据规模达到GB、TB、甚至PB级别的数据。
- 文件规模: 能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上，通过多副本机制，提高可靠性。

1.2 缺点

不适合低延时数据访问，比如毫秒级的存储数据访问是做不到的。
无法高效的对大量小文件进行存储。
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的;
- 小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。
不支持并发写入、文件随机修改。
- 一个文件只能有一个写，不允许多个线程同时写;
- 仅支持数据append(追加)，不支持文件的随机修改;

2. HDFS的架构

Alt text

2.1 NameNode

就是Master，它是主管，管理者，负责如下：

管理HDFS的名称空间。
配置副本策略。
管理数据块(block)的映射信息。
处理客户端读写请求。

2.2 DataNode

就是slave, NameNode下达命令，DataNode执行实际操作。

存储实际数据块。
执行数据块的读/写操作。

2.3 Client

文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传;
与NameNode交互，获取文件的位置信息;
与DataNode交互，读取或者写入数据;
Client提供一些命令来管理HDFS，比如NameNode格式化;
Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作;

2.4 Secondary NameNode

并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode;
在紧急情况下，可辅助恢复NameNode。

3. HDFS的块大小

HDFS中的文件在物理上是分块存储(Block)，块的大小可以通过配置参数dfs.blocksize来规定，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M。 Alt text

HDFS基础 ​

1. HDFS的优缺点 ​

1.1 优点 ​

1.2 缺点 ​

2. HDFS的架构 ​

2.1 NameNode ​

2.2 DataNode ​

2.3 Client ​

2.4 Secondary NameNode ​

3. HDFS的块大小 ​