Hadoop 是一个开源分布式计算框架,用于处理大规模数据集。Hadoop 2.8 是 Hadoop 框架的一个稳定版本,提供了许多改进和新功能。本指南将指导您在 Linux 系统上安装和配置 Hadoop 2.8。
先决条件
在开始安装之前,请确保满足以下先决条件:
* 已安装 Java 8 或更高版本
已安装 SSH
已创建 Hadoop 用户和组
下载 Hadoop
从 Apache Hadoop 网站下载 Hadoop 2.8 二进制发行版。将下载的二进制文件解压缩到您选择的目录中。
配置环境变量
将以下环境变量添加到您的 ~/.bashrc 或 ~/.bash_profile 文件中:
bash
export JAVA_HOME=/path/to/java
export HADOOP_HOME=/path/to/hadoop-2.8.x
export PATH=$PATH:$HADOOP_HOME/bin
确保替换 /path/to/java 和 /path/to/hadoop-2.8.x 路径指向您的 Java 和 Hadoop 安装。
格式化 NameNode
格式化 NameNode 以创建存储元数据的文件系统。
bash
hdfs namenode -format
该命令将在 $HADOOP_HOME/dfs/name 下创建必要的目录结构。
启动 Hadoop
使用以下命令启动 Hadoop:
bash
start-dfs.sh
start-yarn.sh
这将启动 NameNode、DataNode 和 ResourceManager 服务。
验证安装
使用以下命令验证 Hadoop 是否已成功安装:
bash
hdfs dfs -ls /
如果您看到输出,则表示 Hadoop 已成功安装并正在运行。
HDFS 数据目录
默认情况下,HDFS 数据存储在 $HADOOP_HOME/dfs/data/ 目录中。您可以通过修改 $HADOOP_HOME/etc/hadoop/hdfs-site.xml 中的 dfs.data.dir 属性来更改此目录。
Hadoop 配置文件
Hadoop 的配置文件存储在 $HADOOP_HOME/etc/hadoop/ 目录中。这些文件包含配置各种 Hadoop 组件的设置。常见的配置文件包括:
* core-site.xml:核心 Hadoop 配置
hdfs-site.xml:HDFS 配置
yarn-site.xml:YARN 配置
您可以编辑这些文件以根据需要自定义 Hadoop 安装。