博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark环境搭建(中)——Hadoop安装
阅读量:4090 次
发布时间:2019-05-25

本文共 6309 字,大约阅读时间需要 21 分钟。

1. 下载Hadoop

1.1 官网下载Hadoop

打开上述链接,进入到下图,可以随意下载一个完整的hadoop-2.9.0版本,如下图所示:

 

2. 安装单机版Hadoop

详情参考:https://blog.csdn.net/qazwsxpcm/article/details/78637874

3. 安装集群版Hadoop

把hadoop-2.9.0.tar.gz文件进行操作,分三大步骤:

  • 配置前的准备,包括上传到主节点,解压缩并迁移到/opt/app目录,在hadoop目录下创建tmp、name和data目录;
  • 配置,包括hadoop-env.sh、yarn-env.sh(前两者为启动文件的JAVA_HOME和PATH配置)、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、Slaves(后面5个文件为核心组件和集群配置),共7个文件需要配置。配置完成需要向另外的集群机器节点分发hadoop程序;
  • 启动部署,包括格式化NameNode、启动HDFS、启动YARN。

3.1 准备

3.1.1 上传并解压Hadoop安装包

1. 把hadoop-2.9.0.tar.gz通过Xfpt工具上传到主节点的/opt/uploads目录下

 

2. 在主节点上解压缩,如果解压缩出来的文件拥有者和用户组不是hadoop,则需要使用sudo chown -R hadoop:hadoop hadoop-2.9.0命令

 # cd /opt/uploads/

# tar -zxvf  hadoop-2.9.0.tar.gz

有时解压出来的文件夹,使用命令 ll 查看用户和用户组有可能不是hadoop时,即上图绿框显示,则需要使用如下命令更换为hadoop用户和用户组:

# sudo chown hadoop:hadoop hadoop-2.9.0

 3. 把hadoop-2.9.0目录移到/opt/app目录下

# mv hadoop-2.9.0 /opt/app/

# ll /opt/hadoop

3.1.2 在Hadoop目录下创建子目录

以hadoop用户在/opt/app/hadoop-2.9.0目录下创建tmp、name和data目录。tmp为缓存文件,name用于NameNode存放文件,data用于DataNode存放文件

# cd /opt/app/hadoop-2.9.0/

# mkdir tmp && mkdir name && mkdir data

# ll

3.2 配置7大文件

3.2.1 配置hadoop-env.sh

1. 以hadoop用户打开配置文件hadoop-env.sh

# cd /opt/app/hadoop-2.9.0/etc/hadoop

# vi hadoop-env.sh

 

2. 加入配置内容,设置JAVA_HOME和PATH路径

export JAVA_HOME=/usr/lib/java/jdk1.8.0_151

export PATH=$PATH:/opt/app/hadoop-2.9.0/bin

3. 编译配置文件hadoop-env.sh,并确认生效

# source hadoop-env.sh

# hadoop version

 3.2.2 配置yarn-env.sh

1. 以hadoop用户在/opt/app/hadoop-2.9.0/etc/hadoop打开配置文件yarn-env.sh

# cd /opt/app/hadoop-2.9.0/etc/hadoop   如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# vi yarn-env.sh

2. 加入配置内容,在如下位置设置JAVA_HOME路径

export JAVA_HOME=/usr/lib/java/jdk1.8.0_151

 3. 编译配置文件yarn-env.sh,并确认生效

source yarn-env.sh

3.2.3 配置core-site.xml

1. 以hadoop用户,使用如下命令打开core-site.xml配置文件

# cd /opt/app/hadoop-2.9.0/etc/hadoop/     如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# vi core-site.xml

2. 在配置文件中,按照如下内容进行配置

配置的点有fs默认名字、默认FS、IO操作的文件缓冲区大小、tmp目录、代理用户hosts、代理用户组,共6点。

<configuration>

    <property>
           <name>fs.default.name</name>
           <value>hdfs://hadoop1:9000</value>
   </property>
   <property>
        <name>fs:defaultFS</name>
        <value>hdfs://hadoop1:9000</value>
   </property>
   <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
   </property>
   <property>
         <name>hadoop.tmp.dir</name>
         <value>file:/opt/app/hadoop-2.9.0/tmp</value>
   </property>
   <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
        <value>*</value>
   </property>
   <property>
       <name>hadoop.proxyuser.hduser.groups</name>
       <value>*</value>
   </property>
</configuration>

 

3.2.4 配置hdfs-site.xml

1. 使用如下命令打开hdfs-site.xml配置文件

# cd /opt/app/hadoop-2.9.0/etc/hadoop/     如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# vi hdfs-site.xml

 

2. 在配置文件中,按照如下内容进行配置

 hdfs-site.xml配置的点有namenode的secondary、name目录、data目录、备份数目、开启webhdfs,共5点

<configuration>

   <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop1:9001</value>
   </property>
   <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/app/hadoop-2.9.0/name</value>
   </property>
   <property>
       <name>dfs.datanode.data.dir</name>
       <value>file:/opt/app/hadoop-2.9.0/data</value>
   </property>
   <property>
       <name>dfs.replication</name>
       <value>2</value>
   </property>
   <property>
       <name>dfs.webhdfs.enabled</name>
       <value>true</value>
   </property>
</configuration>

 

【注意】:namenode的hdfs-site.xml是必须将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILESTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode来保存的。

3.2.5 配置mapred-site.xml

 1.  默认情况下不存在mapred-site.xml文件,可以从模板拷贝一份。然后,使用vi命令打开mapred-site.xml配置文件

# cd /opt/app/hadoop-2.9.0/etc/hadoop/     如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# cp mapred-site.xml.template mapred-site.xml

# vi hdfs-site.xml

2. 在配置文件中,按照如下内容进行配置

mapred-site.xml配置的点有mapreduce的框架、jobhistory的地址、jobhistory的webapp地址,共3点。

<configuration>

   <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
   </property>
   <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop1:10020</value>
   </property>
   <property>
       <name>mapreduce.jobhistory.webapp.address</name>
       <value>hadoop1:19888</value>
   </property>
</configuration>

 

3.2.6 配置yarn-site.xml

 1. 使用如下命令打开yarn-site.xml配置文件

# cd /opt/app/hadoop-2.9.0/etc/hadoop/     如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# vi hdfs-site.xml

 

2. 在配置文件中,按照如下内容进行配置

yarn-site.xml配置的点有①nodemanager的aux-services及其类;②resourcemanager的地址、其sheduler地址、其resource-tracker地址、其admin地址以及webapp地址,共7点。

<configuration>

     <property>

           <name>yarn.nodemanager.aux-services</name>

           <value>mapreduce_shuffle</value>

     </property>

     <property>

          <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

          <value>org.apache.hadoop.mapred.ShuffleHandler</value>

     </property>

     <property>

          <name>yarn.resourcemanager.address</name>

          <value>hadoop1:8032</value>

     </property>

     <property>

          <name>yarn.resourcemanager.scheduler.address</name>

          <value>hadoop1:8030</value>

     </property>

     <property>

          <name>yarn.resourcemanager.resource-tracker.address</name>

          <value>hadoop1:8031</value>

     </property>

     <property>

          <name>yarn.resourcemanager.admin.address</name>

          <value>hadoop1:8033</value>

     </property>

     <property>

          <name>yarn.resourcemanager.webapp.address</name>

          <value>hadoop1:8088</value>

      </property>

</configuration>

3.2.7 配置Slaves文件

1. 使用# vi slaves打开从节点配置文件

# cd /opt/app/hadoop-2.9.0/etc/hadoop/     如果不在/opt/app/hadoop-2.9.0/etc/hadoop目录下,则使用该命令

# vi slaves

2. 在配置文件中加入如下内容:

hadoop1

hadoop2

hadoop3

 

3.2.8 向各节点分发Hadoop程序

1. 在hadoop1机器/opt/app/hadoop-2.9.0使用如下命令把hadoop文件夹复制到hadoop2和hadoop3机器

# cd /opt/app

# scp -r hadoop-2.9.0 hadoop@hadoop2:/opt/app/

# scp -r hadoop-2.9.0 hadoop@hadoop3:/opt/app/

2. 在从节点查看是否复制成功

3.3 启动部署

启动部署,包括格式化NameNode、启动HDFS、启动YARN。

3.3.1 格式化NameNode

# cd /opt/app/hadoop-2.9.0

# ./bin/hdfs namenode -format

3.3.2 启动HDFS

1. 使用如下命令启动HDFS:

# cd /opt/app/hadop-2.9.0/sbin   如果不在/opt/app/hadoop-2.9.0/sbin目录下,则使用该命令

# ./start-dfs.sh

2. 验证HDFS启动

 此时在hadoop1上面运行的进程有:NameNode、SecondaryNameNode和DataNode

hadoop2和hadoop3上面运行的进程有:NameNode和DataNode

【注意】:jps命令出现—— xxxx--process information unavailable解决方法(有可能出现)

解决方法:根目录/tmp中找到hsperfdata_前缀的目录,并找出PID(即xxxx)对应的文件并且删除即可。如果/tmp文件不重要的话,全部删除也行。

3.3.3 启动YARN

1. 使用如下命令启动YARN

# cd /opt/app/hadoop-2.9.0/sbin  如果不在/opt/app/hadoop-2.9.0/sbin目录下,则使用该命令

# ./start-yarn.sh

2. 验证YARN启动

此时在hadoop1上运行的进程有:NameNode、SecondaryNameNode、DataNode、NodeManager和ResourceManager

hadoop2和hadoop3上面运行的进程有:NameNode、DataNode和NodeManager

4. 总结

参考资料:

  jps命令出现xxxx--process information unavailable解决方法

石山园大神的讲解

你可能感兴趣的文章
我觉得嵌入式面试三要素:基础吃透+项目+大量刷题,缺一不可。不刷题是不行的。而且得是大量刷,刷出感觉套路,别人做题都做得是固定题型套路条件反射了,你还在那慢慢理解慢慢推是不行的,也是考研的教训。
查看>>
现在来看,做个普罗米修斯的docker镜像对我而言并不难,对PX4仿真环境配置也熟悉了。
查看>>
删除docker容器和镜像的命令
查看>>
gazebo似乎就是在装ROS的时候一起装了,装ROS的时候选择的是ros-melodic-desktop-full的话。
查看>>
React + TypeScript 实现泛型组件
查看>>
TypeScript 完全手册
查看>>
React Native之原理浅析
查看>>
Git操作清单
查看>>
基础算法
查看>>
前端面试
查看>>
React Hooks 异步操作踩坑记
查看>>
聊聊编码那些事,顺带实现base64
查看>>
TypeScript for React (Native) 进阶
查看>>
React 和 ReactNative 的渲染机制/ ReactNative 与原生之间的通信 / 如何自定义封装原生组件/RN中的多线程
查看>>
JavaScript实现DOM树的深度优先遍历和广度优先遍历
查看>>
webpack4 中的 React 全家桶配置指南,实战!
查看>>
react 设置代理(proxy) 实现跨域请求
查看>>
通过试题理解JavaScript
查看>>
webpack的面试题总结
查看>>
实践这一次,彻底搞懂浏览器缓存机制
查看>>