1. 确保已安装 Linux 操作系统(建议使用 CentOS 7+ 或 Ubuntu 14.04+)
2. 安装 Java 运行环境(JRE)或 Java 开发工具包(JDK),版本要求为 Java 7 以上
二、下载 Hadoop 2.2
1. 访问 Apache Hadoop 官方网站(https://hadoop.apache.org/)
2. 下载 Hadoop 2.2.0 或更高版本的二进制包(tar.gz)
三、解压并配置 Hadoop
1. 将下载的 Hadoop 压缩包解压缩到指定目录(例如 /usr/local/hadoop)
2. 编辑 Hadoop 配置文件 core-site.xml 和 hdfs-site.xml,分别配置 Hadoop 集群的名称和 HDFS 存储目录
3. 编辑文件 mapred-site.xml 和 yarn-site.xml,配置 MapReduce 和 YARN 的相关参数
四、启动 Hadoop 集群
1. 初始化 Hadoop 数据节点(HDFS):hdfs namenode -format
2. 启动 Hadoop 集群:start-dfs.sh 和 start-yarn.sh
五、验证安装
1. 使用 HDFS 命令检查文件系统:hdfs dfs -ls /
2. 使用 MapReduce 命令运行示例作业:hadoop jar hadoop-mapreduce-examples.jar pi 10000
3. 使用 YARN 命令查看集群状态:yarn application -list
六、其他设置(可选)
1. 启用 Hadoop 安全(Kerberos 认证):遵循 https://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/Kerberos.html 上的指南
2. 配置 Hadoop 高可用性(HA):遵循 https://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html 上的指南