关于Hadoop的一些介绍及安装

 

1Hadoop简介

1hadoop的诞生

l NutchLucene之父Doug Cutting2006年完成Hadoop项目。

l Hadoop并不是一个单词,它来源于Doug Cutting小儿子对所玩的小象玩具牙牙学语的称呼。就像是google也是由小孩子命名一样。

l 后又经过5年的开发,hadoop在所有云计算系统是稳居第一。

l Hadoop目前使用最广泛的版本为hadoop-0.20版本。目前最新版本为hadoop-1.03。

l Hadoop运行在Linux系统中。在windows上安装可使用cgywin模拟linux环境。

2hadoop的组成

l hadoop Common – 是hadoop的核心,包括文件系统、远程调用RPC的序列化函数。

l HDSF : 提供高吞吐量的可靠分布式文件系统是 GFS的开源实现。

  • Hadoop的文件系统。必须通过hadoop  fs 命令来读取。支持分布式。

l MapReduce : 大型分布式数据处理模型,是Google MapReduce的开源实现。

  • 合并/计算模型。

l 其他相关组成:

  • Hbase:结构化分部式数据库。BigTable的开源实现。
  • Hive:提供摘要和查询功能的数据仓库。
  • Cassandra:Facebook开发分布式数据仓库。目前已经捐献给apache。且apache已经将Cassandra应用到了各种云计算系统中。

3hadoop的体系结构

NameNode  - 主节点 主服务器

SecondaryNameNode – 是辅助nameNode

DataNode  -数据保存用的

TaskTracker – 接收任务

[Hadoop简介][Hadoop安装]-飞网

l NameNode:这是hadoop的守护进程(注意是进程JVM)。负责记录文件是如何分割成数据块,以及这些数据块分别存储到哪些数据节点上。对内存进行集中管理。NameNode在整个hadoop中只有一个。一旦NameNode服务器宕机,整个系统将无法运行。

l DataNode:集群中的每个从服务器都运行一个DataNode后台程序。这个后台程序负责将HDFS数据块写到本地的文件系统。

l Secondary NomeNode:用来监控HDFS状态的辅助后台程序。如保存NameNode的快照。

l JobTracker:用户连接应用程序和hadoop。每一个hadoop集群中只一个 JobTracker,一般它运行在Master节点上。

l TaskTracker:负责与DataNode进行结合。

4Hadoop的市场

l facebook

l 淘宝

l 360完全

l 京东

l yahoo

l google

l 暴风

 

5Hadoop的安装

官方只提供linux的安装版本:

[Hadoop简介][Hadoop安装]-飞网

目前市场上出现了一种window上的可以安装的版本。其实是将Linuxhadoop整合的产物。目的是简化hadoop的安装。此安装程序使用的是hadoop-0.20版本+cgywin

 

hadoop4win-setup-full_0.1.5.exe

hadoop的单机安装-hadoop4win的安装方法

Hadoop的使用包括

n 安装

n 格式化NameNode

n 启动所有节点

 

Hadoop4win的安装方法非常简单,因为它就是一个setup安装程序,只要会点下一步即可。