工具车厂家
免费服务热线

Free service

hotline

010-00000000
工具车厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

大数据群雄争霸Hadoop发行版谁主沉浮

发布时间:2020-01-15 01:24:41 阅读: 来源:工具车厂家

大数据时代,正如数据爆炸性增长那般,超出人们的预期加快来临了。“时势造英雄”,Hadoop在大数据潮流中不断被人关注、熟知,并由各大厂商锤炼成大同小异的各类发行版。各大Hadoop发行版犹如“鱼龙混杂”,谁将笑到最后成为制胜大数据的利剑呢?本文将给你答案。

当大数据热潮闪现的时候,Hadoop也进入了人们的视野。Hadoop原本仅仅是一个基于分布式计算环境的开源软件库,由于其符合大数据计算环境的分布式要求,“时势造英雄”一炮走红,犹如当年的Linux开源软件系统一样,成为了研究和设计大数据解决方案的主流平台。

至于Hadoop的具体定义,相比各位读者从维基百科、互联网等各个渠道都有所了解。这里我们也就不再赘述了,我们主要谈谈,Hadoop在支撑大数据应用方面的独具优势。

Hadoop是一套系统平台,主要采用Hadoop分布式文件系统(HDFS)实现高可靠数据存储,并通过 MapReduce技术实现高性能数据处理。在这两大功能模块基础上,Hadoop的价值还体现在各个功能组件方面:

Hadoop子项目结构示意图

最左侧的Ambari项目是最新加入Hadoop,旨在帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。而ZooKeeper最大的功能是协调,随着越来越多的项目加入Hadoop生态系统的一部分,集群成员通过ZooKeeper功能进行彼此同步并了解访问服务和配置。

中间及右侧的功能组件,则最为常见。Pig(雅虎提供)是一种编程语言,可加载数据、表达转换数据以及存储最终结果,它简化了Hadoop常见的工作任务。而Hive(来源于Facebook)在Hadoop中扮演数据仓库的角色。HCatalog则基于Apache Hadoop之上的数据表和存储管理服务。

截至目前,各大厂商围绕Hadoop推出的发行版(包括商业版和开源版)已经很多,在这些版本中,谁将有望成为最具影响力、基于Hadoop平台的解决方案呢?请读者在页面下方投出自己的选票,我们也在接下来的文章中为大家简要介绍这些Hadoop版本的解决方案。

想了解更多大数据专业资讯,请点击收藏:ZOL大数据专区

调查区域:基于Hadoop大数据解决方案趋势调查(点击预览可查看效果)

第2页:群雄争霸:Hadoop发行版谁主沉浮

前面我们讲到Hadoop这一主流大数据平台的基本结构,了解到大数据这一发展趋势,带动起整个 Hadoop生态链的扩张。其中,既有来自软件领域(Cloudera、SAP、微软、甲骨文等)也有来自传统硬件厂商(英特尔、EMC、华为等)的Hadoop解决方案。

在软件领域或者说Hadoop生态领域,Cloudera是规模最大、知名度最高的企业,它汇聚了Facebook、谷歌、雅虎、甲骨文前工程师的优秀团队力量。从成立之初至今,已经前后数次募集巨额资金,并也成为当前大数据领域最强有力的解决方案服务商之一。该公司在Hadoop发行版基础上增添了Cloudera 管理器控制台和企业级服务支持,这些服务对于大数据环境下的平台管理和数据服务,提供了强有力的支持。

Cloudera提供的Hadoop属于目前市面上Hadoop两大开源版本之一(另一开源版本为Apache),它也称 为CDH3版本。就理论上来说,CDH3版本应该支持Apache版本的全部组件及其子项目。集成hive、pig等基于Hadoop的SQL接口,使得这些软件的安装、配置和使用的成本得以降低并且有望实现标准化。但其 提供的sqoop工具没有独立提供(单独收费),而且Cloudera CDH默认没有提供eclipse插件(需自己编译),插件方面和Apache hadoop插件也不兼容。另一个不足之处是,它提供的Hadoop并不是采用最新版本的2.0版本。

下面,我们来看看其他版本的Hadoop大数据解决方案。前不久,存储巨头EMC发布了自身的Apache Hadoop发行版Pivotal HD。该版本Hadoop能够与Greenplum(2010年EMC收购的MPP数据库厂商)数据库进行整合,而不仅仅是在Hadoop中运行SQL。

EMC Hadoop发行版:Pivotal HD(来源:EMC)

甲骨文则一直强调软硬平台的整合,其大数据机(Big Data Appliance)和Exalytics商务智能服务器,被认为是甲骨文进军大数据的标志。该大数据机包含开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器,并与Cloudera公司合作提供Apache Hadoop系列软件。

IBM则对数据挖掘和数据分析颇感兴趣,包括一直在倡导的“智慧地球”理念。在大数据解决方案层面,有基于Hadoop领域的InfoSphere BigInsights、流计算领域的InfoSphere Streams、数据仓库方面的InfoSphere Warehouse和etezza以及信息整合与治理(Information Integration and Governance) 方面的产品Optim和Guardium。

IBM宣布基于Hadoop的大数据分析平台之后,Hortonworks也随之发布了基于Hadoop的数据平台的技术预览版(HDP,Hortonworks Data Platform)。和其他公司一样MapR将基于开源的Hadoop产品商业化并进行发售。不同的是,MapR提供了很多不同于Hadoop的特性(比如快照)。MapR拥有免费和商业两个版本的Hadoop,免费版本在功能上有所缩减。

Hortonworks大数据平台架构(来源:Hortonworks)

值得注意的是,MapR与其他版本的Hadoop有所不同,它寄希望于改写架构重写HDFS以消除 Hadoop在完全可读写的文件系统和快照(数据恢复)、镜像(数据备份)支持方面的弱点。MapR目前可提供比开源版本快3倍的性能,支持快照可避免SPOF(Single Point of Failure,单点故障)。从而减少了namenode机器的开支和NAS对namenode做元数据备份的必要,提高平台利用率,并保持与现有Hadoop在API方面的兼容性。

MapR

分布式NameNode

然而,MapR版本的Hadoop看上去很美好,但困难重重。对于通过集群这一分布式平台实现大数据价值挖掘的Hadoop解决方案来说,其实还有着唾手可得、水到渠成的解决方案Intel发行版Hadoop。

众所周知,英特尔在开放服务器领域有着丰富而又完整的解决方案,在云计算、数据中心领域积累了大量实践经验。英特尔结合自己强大技术、成熟市场和经验,可打造面向大数据应用的Hadoop高效平台,有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案。

第3页:软硬双版:英特尔Hadoop发行版独领风骚

传统以来,英特尔是一家基于半导体芯片制造和技术创新的公司,在推动行业创新引领业界发展方面贡献不遗余力。而大数据时代的到来,将加速英特尔从产品提供商到服务提供商的转型,围绕应用提供包括产品、技术和平台的整体解决方案。

根据IDC在大数据方面的预测,中国将成为大数据最重要的市场。作为以半导体芯片为特长的英特尔公司来说,很早就在中国开设有(英特尔中国也是英特尔全球部署最全面的第二大机构)研究院,并且在软件行业每年都有大量的开源技术专家参与开源项目(比如去年成立的通软英特尔博锐技术解决方案中心)。而作为英特尔发行版Hadoop,也恰恰是众多开源项目中的一个,是一套基于Hadoop可满足不同行业需求的完整解决方案。在去年,英特尔为此还发布了基于Hadoop的发行版和免费版产品。

英特尔Hadoop发行版管理工具(一站式安装、部署、配置、监控和告警)

相比传统的Hadoop开源版本,英特尔发行版专门从软硬件层面分别进行了深度优化。有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案。

英特尔Hadoop发行版与开源版本功能对比

基于英特尔Hadoop发行版,在原有的开源版本基础上进行了特殊强化,包括HDFS、MapReduce以及 HBase都有重新改写,同时并支持SQL查询指令语言Hive,对于SQL指令的查询速度提升了8.5倍。另外,它还可以直接支持Xeon进阶运算加密指令集AES-NI,来提高数据运算速度,还能让数据收集、储存到HBase的过程,可以被芯片原生的加密功能保护,而性能又不会因为加密受到影响。在成熟且广阔开放的x86平台上,基于英特尔发行版Hadoop可以实现深度融合,其免费版Hadoop也有助于化解Hadoop开源版本部署技术门槛高的问题。

最值的称道的是,英特尔还将Hadoop直接固化到底层的处理器芯片中,并且通过固态驱动器与缓存加速来实现优化(参考《融入“芯” 英特尔Hadoop应对大数据应用》)。

从以上的各大Hadoop发行版平台来看,得益于英特尔在计算领域的独特专长(大数据价值挖掘的最重要任务就是计算处理)以及在内存、存储等技术上的创新和行业经验的成熟,使得英特尔Hadoop发行版在功能、管理、扩展、性能方面都具有长足优势。当前,通过中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版针对中国市场的行业和应用特点还有更进一步的优化。这些对于中国大数据市场来说,英特尔Hadoop发行版势必拥有更多实战舞台的空间。

或许,基于英特尔软硬件的大数据解决方案,将更多地会以服务和成品的形式,在大数据时代定“独领风骚”。

网上预约挂号

名医汇

预约挂号