HDFS 如何处理宕机 DataNode

2022/09/15

NameNode 如何管理故障 DataNode 上的数据块?

DataNode 一段时间(默认是 10.5 分钟)没有心跳则被认为是 dead 。

接下来 NameNode 按照如下步骤来维持副本数(默认是 3 ):

  1. NameNode 识别哪些块在故障 DataNode 上;
  2. NameNode 定位其他拥有这些块备份的 DataNode ;
  3. 具有块副本的 DataNode 被指示将这些块复制到其他 DataNode 以维持副本数。

处理 dead DataNode 注意一下几点:

Rack-Awareness: 机架感知确保对副本的读/写请求被放置到最近的机架或同一个机架。

该如何处理?

因为副本会自动迁移,所以不用额外处理,等故障机器修好重新上线后,加入集群即可。

参考