目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。
手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须自己解决组件间版本兼容问题。
工具部署呢,比如Ambari或Cloudera Manger。(当前两大最主流的集群管理工具,前者是Hortonworks公司,后者是Cloudera公司)使用工具来,可以说是一键操作,难点都在工具Ambari或Cloudera Manger本身部署上。
手工方式 工具方式
难易度 难,几乎不可能成功 简单,易行
兼容性 自己解决组件兼容性问题 自动安装兼容组件
组件支持数 支持全部组件 支持常用组件
优点 对组件和集群管理深刻 简单、容易、可行
缺点 太复杂,不可能成功 屏蔽太多细节,妨碍对组件理解
工具名 所属机构 开源性 社区支持性 易用性、稳定性 市场占有率
Cloudera Manger Cloudera 商用 不支持 易用、稳定 高
Ambari Hortonwork 开源 支持 较易用、较稳定 较高
常见的情况是,Cloudera Manger 去部署CDH
Ambari去部署HDP,
当然,两者也可以互相,也可以去部署Apache Hadoop
Hadoop在大数据领域的应用前景很大,不过因为是开源技术,实际应用过程中存在很多问题。于是出现了各种Hadoop发行版,国外目前主要是三家创业公司在做这项业务:Cloudera、Hortonworks和MapR
Cloudera和MapR的发行版是收费的,他们基于开源技术,提高稳定性,同时强化了一些功能,定制化程度较高,核心技术是不公开的,营收主要来自软件收入。
这类公司,如果一直保持技术领先性,那么软件收入溢价空间很大。但一旦技术落后于开源社区,整个产品需要进行较大调整。
Hortonworks则走向另一条路,他们将核心技术完全公开,用于推动Hadoop社区的发展。这样做的好处是,如果开源技术有很大提升,他们受益最大,因为定制化程度较少,自身不会受到技术提升的冲击。
cdh
(1)CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
(2)安全CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
(3)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
(4)CDH支持Yum/Apt包,Tar包,RPM
包,Cloudera Manager四种方式安装,Apache hadoop
只支持Tar包安装。
1、联网安装、升级,非常方便
2、自动下载依赖软件包
3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。
hortonworks
Hortonworks这个名字源自儿童书中一只叫Horton的大象。雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks。
Hortonworks有两款核心产品:HDP和HDF
Hortonworks没有对产品收费,而是将这两款产品完全开放,将核心技术放在Hadoop开源社区中,每个人都可以看到并使用这两款产品
企业客户自己开发难度较大的话,就会选择合作。这就是Hortonworks的盈利模式,通过提供支持服务和后期维护,向企业级客户收费。
支持服务主要是通过订阅的方式,客户需要就某些功能预定一年或者几年的服务,提前付费。支持服务覆盖整个周期,从最初的开发和POC阶段,到中间的质量测试,直至产品交付。维护服务主要是对企业级客户的培训和一些咨询业务。
mapr
Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。
原文:
(译文):
对于企业而言,不管过去是否曾使用过Hadoop,正确选择Hadoop商业发行版都很重要。当企业准备投入巨大的财力在Hadoop平台的硬件和解决方案上时,选择某个商业版的Hadoop系统就变得特别重要了。根据业务需要选择正确的Hadoop商业发行版可以带来更多的数据解决方案并且可以获得业界专业人士的认可。这篇文章将从成本、技术细节、部署和维护等几个方面比较Cloudera、Hortonworks和MapR发布的Hadoop版本。
Hadoop 是一个开源项目,先后有许多公司在其框架基础上进行了增强并且发布了商业版本。Hadoop项目的最大诱惑在于使用者可以根据自身的业务需要定制差异化的功能。在Apache开源社区,Hadoop把所有的相关项目组成一个完整的生态系统,用户几乎不费吹灰之力就可以通过搭配一些组件来实现一个完整功能。
哪些人需要Hadoop分布式系统?
l 需要学习和临时使用Hadoop的各行业专业人士
l 需要在大数据的背景下推进业务解决方案演进的各类机构
l 需要在Hadoop生态系统中开发新工具的人员
商业版本的Hadoop有哪些改进?
Hadoop商业发行版的提供者们通过优化核心代码、增强易用性、提供技术支持和持续版本升级为Hadoop平台实现了许多新功能。市场上受认可的Hadoop商业发行版的提供者主要有Cloudera,MapR和Hortonworks。 他们发行的Hadoop商业版本都能与Apache社区开源版本兼容,但它们之间有哪些区别呢?
l 框架核心:Cloudera,MapR和Hortonworks这三家公司都把Hadoop核心框架打包到了他们的商业版本中;在这基础上,他们都提供了技术支持服务和定制化开发服务。
l 系统集成:MapR 的商业版Hadoop可靠地支持一系列功能,包括:实时流数据处理,与已有系统集成的内嵌的连接器,数据安全保护,企业级工程品质。
l 系统管控:Cloudera和MapR 商业发行版中都包含了为系统管理员提供了配置、监控和优化的管控平台。
Cloudera,Hortonworks和MapR异同之处分析
版本 | 优点 | 缺点 |
CDH | CDH有一个友好的用户界面及一些实用的工具,比如:Impala | CDH相对MapR Hadoop来说,运行效率显著降低 |
MapR Hadoop | 运行效率高;节点之间可以通过NFS直接访问 | MapR Hadoop没有像CDH那样的用户界面 |
HDP | 唯一一个能运行在Windows上的Haoop系统 | Ambari管控界面功能比较简单,不够丰富 |
相似性:
l Cloudera, Hortonworks 和MapR三家公司都专注于Hadoop平台开发,商业版本的Hadoop系统是他们的全部收入来源。
l 这三家公司都是中等规模的公司,都拥有一些优质客户和来自其他行业的投资伙伴。
l 这三家公司都提供了免费版本的下载,不同的是,MapR和Cloudera 还为付费客户提供功能增强版本。
l 这三家公司都建立了技术支持社区帮助用户解决遇到的问题以及在用户需要时提供系统演示。
l 这三家公司都通过测试保证发行版本满足用户业务对稳定性和安全性需求。
下面我们会在对比每一个商业版本功能的基础上分析其差异性:
Cloudera — CDH
Cloudera 是Hadoop领域知名的公司和市场领导者,提供了市场上第一个Hadoop商业发行版本。它拥有350多个客户并且活跃于Hadoop生态系统开源社区。在多个创新工具的贡献着排行榜中,它都名列榜首。它的系统管控平台——Cloudera Manager,易于使用、界面清晰,拥有丰富的信息内容。Cloudera 专属的集群管控套件能自动化安装部署集群并且提供了许多有用的功能,比如:实时显示节点个数,缩短部署时间等。同时,Cloudera 也提供咨询服务来解决各类机构关于在数据管理方案中如何使用Hadoop技术以及开源社区有哪些新内容等疑虑。美国电商“高朋”公司是CDH的用户。
CDH的主要特性:
l 在线不停机添加新组件
l 多集群统一管理
l 提供差异化配置的节点模板。用户不必使用单一配置的Hadoop集群,可以依此创建差异化配置的集群。
l Hortonworks 和Cloudera都依赖于HDFS的DataNode 和NameNode架构来做数据切分。
MapR — Hadoop
MapR的Hadoop商业发行版紧盯市场需求,能更快反应市场需要。一些行业巨头如思科、埃森哲、波音、谷歌、亚马逊都是MapR的Hadoop的用户。与Cloudera和Hortonworks不同的是, MapR Hadoop不依赖于Linux文件系统,也不依赖于HDFS,而是在MapRFS文件系统上把元数据保存在计算节点,快速进行数据的存储和处理。
MapR Hadoop的主要特性:
l 由于它基于MapRFS,它是唯一一个能不依赖于Java而提供Pig,Hive和Sqoop的Hadoop。
l MapR Hadoop是最适合应用于生产环境的Hadoop版本,它包含了许多易用性、高效和可信赖的增强功能。
l MapR Hadoop集群节点可以通过NFS直接访问,因此用户可以像使用Linux文件系统一样在NFS上直接挂载MapR文件。
l MapR Hadoop提供了完整的数据保护,方便使用并且没有单点故障。
l MapR Hadoop被认为是运行最快的Hadoop版本。
尽管从集群规模来说,MapR Hadoop还不如Hortonworks 和Cloudera,只能暂列第三,但相对其它版本的Hadoop来说,它易用性最强,运行最快。因此,如果用户想选择带有足够创意和学习资料的Hadoop,那么MapR Hadoop将是不二之选。
Hortonworks — HDP
Hortonworks是由一些雅虎的工程师创立的公司,提供针对Hadoop的技术服务。与其它公司不同的是,它提供完全开源的Hadoop数据平台并且用户可以免费使用。用户可以很方便得下载Hortonworks 的Hadoop发行版HDP并把它集成到各种应用中。Ebay、三星、彭博、Spotify 都是HDP的用户。Hortonworks 也是第一个基于Hadoop 2.0提供满足生产环境需要的Hadoop版本。尽管CDH在其早期的版本中包含了Hadoop 2.0的部分功能,但这些功能无法满足生产环境需要。HDP 也是目前唯一能支持Windows的Hadoop版本。用户可以在Azure 上通过HDInsight 服务部署Windows上的 Hadoop。
HDP的主要特性:
l HDP 通过Stinger项目提升了Hive的性能
l HDP 通过新的Hadoop分支来避免用户被厂商绑定
l 聚焦于提升Hadoop平台的实用性
通过对Hadoop市场上的这三家公司的产品战略和功能分析后,我们很难简单说谁更胜一筹。各类机构需要根据自身业务程度需要来选择Hadoop商业版本。回答下面这些问题可以帮助用户做出选择:
1. 是否会使系统管理员工作更加高效?
2. 是否便于Hadoop开发人员和业务分析人员访问数据?
3. 是否满足机构内部关于数据安全的规章制度要求?
4. 是否适合机构内部的系统运行环境?
5. 是否需要Hadoop提供的所有组件和能力?
6. 是否需要大数据的整体解决方案来支撑业务盈利?以及是否需要紧跟开源以减少被厂商绑定?
7. 系统可靠性、技术支持、扩展功能等是否非常重要?
用户如果期望得到一个像样的产品,那选择MapR Hadoop比较适合;如果需要紧跟开源,那么就应该选择Hortonworks;如果用户的业务需求需要介于二者之间,那么Cloudera 就是个不错的选择了。
如何选择Hadoop发行版完全取决于用户在实施Hadoop平台中遇到了什么样的困难。Hadoop商业发行版可以帮助用户把Hadoop平台和其他异构数据分析平台灵活、可靠、可视化地连接起来。每个Hadoop发行版都有其各自的优点和缺点。在选择时,不仅要平衡风险和成本,也要考虑各种发行版的附加功能是否符合实际业务场景需要。
一、Hadoop版本综述
目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。(http://www.apache.org/licenses/LICENSE-2.0)。
国内绝大多数公司发行版是收费的,比如Intel发行版、华为发行版等,尽管这些发行版增加了很多开源版本没有的新feature,但绝大多数公司选择Hadoop版本时会将把是否收费作为重要指标,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、
Apache基金会hadoop、
Hortonworks版本(Hortonworks Data Platform,简称“HDP”)--------按顺序代表了,在国内的使用率,CDH和HDP虽然是收费版本,但是他们是开源的,只是收取服务费用。
对于国内而言,绝大多数选择CDH版本,主要理由如下:
(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本(现在已经更新到CDH5.20了,基于hadoop2.x),分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;
(2) CDH文档清晰,很多采用Apache版本的用户都会阅读cdh提供的文档,包括安装文档、升级文档等。
CDH与Apache版本的对应:
cdh3版本是基于apache hadoop 0.20.2 cdh3u6对应到apache hadoop最新版本(Hadoop 1.x) cdh4对应apache hadoop 2.x
HDP版本是比较新的版本,目前与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者,尤其是Hadoop 2.0的贡献者。
二、社区版本与第三方发行版本的比较
1.Apache社区版本
优点:
完全开源免费。 社区活跃 文档、资料详实 缺点: ----复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。 ----复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。 ----复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。 ----复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。2.第三方发行版本(如CDH,HDP,MapR等)
优点:
----基于Apache协议,100%开源。 ----版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。 ----比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。 ----版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。 ----基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch ----提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。 ----运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。 缺点:----涉及到厂商锁定的问题。(可以通过技术解决)
三、第三方发行版本的比较
Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks:不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。
MapR:与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件)。可以使用本地Unix命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着Apache Drill项目,本项目是Google的Dremel的开源项目的重新实现,目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。
四、版本选择 当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素: (1)是否为开源软件,即是否免费。 (2) 是否有稳定版,这个一般软件官方网站会给出说明。 (3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。 (4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。题外篇:
市场,场景,策略及上市的步调不同
三家马车中,Hortonwork和Cloudera先后上市,MapR也加快了上市步伐。
2014年,Hortonworks成功IPO在纳斯达克上市。该公司以每股16美元的价格发行625万股股票,募集1亿美元资金,开盘首日上涨幅度达到60%,市值接近11亿美元。
2017年4月底,Cloudera以每股15美元的定价在纽约证券交易所上市,股价一日上涨超20%至18.09美元。这一价格也超出了此前公司12到14美元的预期范围。Cloudera目前市值约为23亿美元,远低于2014年英特尔给出的41亿美元估值。
MapR于2009年成立,曾在五轮风险投资里拿到1.14亿美元。公司的风投支持者通常希望看到两个结果,其一是上市,另一个是被收购。但是媒体2017年6月报道,公司MapR的首席执行官米尔斯说不愿说上市的日期,但表示上市已提到议事日程上。米尔斯表示,“我想上市,但我也想尊重上市的步骤。”
赢利还是亏损
三大公司的营收情况怎么样?这可以说是Hadoop 商业化世界的一个风向标。
Hortonworks于2017年5月公布的消息现实,公司2017年第一季度收入5600万美元,同比增长35%,利润率更高,经营亏损收窄。但是目前依然是亏损。
Cloudera的收入正在增长,截止到1月份的上一财年营收达到2.61亿美元,亏损为1.86亿美元;2015财年营收为1.66亿美元,亏损2.03亿美元。Cloudera的多数营收都来自订阅收入,订阅期通常为1至3年,但他们还通过服务获取营收,包括专业服务、培训和教育等。
MapR公司的CEO米尔斯认为,MapR的销售额在不断增长,平均交易规模大于10万美元,但他不愿评论成本或亏损。
商业模式
同样基于开源的Hadoop,但是三大公司所采用的商业模式却各有不同。
Cloudera采用发布Hadoop商业版和发布商用工具的模式。所谓的Hadoop发行商,有点类似于Linux世界里的RedHat。公司通过开源软件的包装,整合稳定的版本形成一个套餐。通过让企业用户购买套餐来实现盈利。所以,Cloudera给所有使用了其Hadoop的套餐的用户提供收费技术支持。
同时,Cloudera也提供免费的版,用户可以在网站上随便下载免费使用的。但是Cloudera同时又提供如Cloudera Manager的企业管理组件,在最初三个月试用之后就要收费的。
MapR走的和Cloudera类似的商业模式,但是它是以发布商业化工具产品为主,同时提供发行版。
Hortonworks提供的软件都是100%开源免费下载,将核心技术放在Hadoop开源社区中,每个人都可以看到并使用。对于企业客户来说有了源代码,如何与自己系统相结合、增强功能、调试故障、对接应用等都是问题。企业客户如果想用这项技术,自己开发难度较大的话,就会选择合作。这就是Hortonworks的盈利模式,通过提供支持服务和后期维护,向企业级客户收费。
支持服务主要是通过订阅的方式,客户需要就某些功能预定一年或者几年的服务,提前付费。支持服务覆盖整个周期,从最初的开发和POC阶段,到中间的质量测试,直至产品交付。维护服务主要是对企业级客户的培训和一些咨询业务。