国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > 互联网 > 一周热点:美国大学生数学建模分析,Hadoop不是万能,探访雅虎数据中心

一周热点:美国大学生数学建模分析,Hadoop不是万能,探访雅虎数据中心

来源:程序员人生   发布时间:2014-09-01 00:08:54 阅读次数:3558次

2014年2月7日-11日,一年一度的美国大学生数学建模竞赛正在紧张进行,参加这个竞赛获奖的学生,能比较轻松地敲开美国前一百位大学的大门;Hadoop虽然是一个强大的分布式计算架构,但是它也有很多不足的地方;拥有过8亿的活跃用户,提供了60多个全球化产品,分别在20多个国家或地区部署数十万台服务器之上的雅虎运维团队为何仅有数百人,看北京全球研发中心高级系统运维工程师刘元如何解读……


第六届中国云计算大会(China Cloud Computing Conference)将于2014年05月在国家会议中心・北京召开。此次会议将继承前五届大会的成功经验,将邀请更多国内外知名院士、专家学者、行业CIO参加会议并作演讲。


1. 2014年美国大学生数学建模竞赛翻译及建模思路

一年一度的美国大学生数学建模竞赛(MCM/ICM已发展为一项国际级的竞赛项目。数学建模是有效搭建逻辑与数据间桥梁的工具,没有建模,大数据分析只是空中楼阁,张腾元在CSDN博客中对2014年美国大学生数学建模题目进行了翻译,然后给出了自己的解题思路,以及众多的参考文献:


http://www.comap.com/undergraduate/contests/车辆右行:在一些规定汽车靠右行驶的国家(即美国,中国和其他大多数国家,除了英国,澳大利亚和一些前英国殖民地) ,多车道的高速公路经常使用这样一条规则:要求司机开车时在最右侧车道行驶,除了在超车的情况下,他们应移动到左侧相邻的车道,超车,然后恢复到原来的行驶车道(最右车道)。建立和分析一个数学模型,来分析这一规则在轻型和重型交通中的性能(即车辆较少和交通较拥堵时)。

大学教练的故事:体育画报,为运动爱好者杂志,正在寻找上个世纪堪称“史上最优秀大学教练”的男性或女性。建立数学模型,选出在大学曲棍球,足球,棒球或垒球,篮球,橄榄球领域(过去或现在)最好的一个或多个、男性或女性大学教练。你在你的分析中使用的时间范围对结果有影响吗?比如说,在1913年执教的情况不同于2013年?清楚地说明您的评估指标。讨论你的模型怎样在男女性别和所有可能的运动中应用。展示由你的模型得到的3个不同的运动各自排名前5的教练。 

2. Hadoop虽然强大,但不是万能的

Hadoop很强大,但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具,毕竟Hadoop不是万能的!本文中列举了几种不适合使用Hadoop的场景。包括: 低延迟的数据访问、结构化数据、数据量并不大的时候、大量的小文件、太多的写入和文件更新、MapReduce 可能不是最好的选择。

3. 简单10招,让你的云计算事业锦上添花

现在各行各业的竞争越来越激烈,云计算和IT领域尤其如此。要想在云计算和IT领域立足或者出人头地,必须在具备扎实的专业知识的基础上,不断学习其它相关知识。DataCenterKnowledge网站的Bill Kleyman给我们分享了几个简单的方法,来提升我们的云计算和IT技能。


 

要想在云领域和IT领域成为成功人士,你首先要完善你已有的专业技能,除此之外,下面的10种方法可能会帮到你:关注社会,并获得别人的关注、学习新的技术、学习商业语言、设想自己是架构师――统筹全局、了解团队和组织动态、将业务和市场转化为真正的IT解决方案、不要害怕说出来、网络、网络和还是网络、考虑“数据中心”以外的东西、永不自满。

4. 走进支撑过8亿用户的Yahoo!数据中心

Yahoo!是一家全球知名的互联网公司,拥有过8亿的活跃用户,提供了60多个全球化产品,分别部署在20多个国家或地区的数十万台服务器之上,然而雅虎全球的运维团队却仅有数百人。雅虎北京全球研发中心高级系统运维工程师刘元从三个方面来阐述雅虎的技术运维体系,剖析超大规模网络应用的运维挑战,走进Yahoo!数据中心!

基础设施:“工欲善其事,必先利其器”――需要支撑超大规模的网络应用,超大规模的全球基础设施是必不可少的。所以我们先看Yahoo!数据中心和全球的骨干网络有哪些特别的设计和考虑,来帮支撑超大规模的互联网应用。

技术生态圈:有了世界顶尖的硬件环境,软件环境也不可少。博文着重介绍下Yahoo!的技术生态圈,看看Yahoo!使用了哪些产品和技术来支持大规模网络应用。


运维团队:前面的两条分别是硬件和软件环境,除了一流的硬件和完备的软件环境,能够实现高可用性大规模应用的核心,还是人。所以在最后,他给大家介绍了雅虎的全球运维团队是如何工作的

5. 更快、更强――解析Hadoop新一代MapReduce框架Yarn

对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,随着需求的发展,Yarn 框架浮出水面,读者通过本文中新旧 Hadoop MapReduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和设计思想。 博文首先介绍了原MapReduce框架的不足:

 


然后重点介绍了Yarn架构:Yarn/MRv2最基本的想法是将原JobTracker主要的资源管理和job调度/监视功能分开作为两个单独的守护进程。有一个全局的ResourceManager(RM)和每个Application有一个ApplicationMaster(AM),Application相当于map-reduce job或者DAG jobs。

ResourceManager和NodeManager(NM)组成了基本的数据计算框架。ResourceManager协调集群的资源利用,任何client或者运行着的applicatitonMaster 想要运行job或者task都得向RM申请一定的资源。ApplicatonMaster是一个框架特殊的库,对于MapReduce框架而言有它自己的AM实现,用户也可以实现自己的AM,在运行的时候,AM会与NM一起来启动和监视tasks。

6. 围观龙虎斗:谷歌GCE vs. 亚马逊AWS,要做9件事

真正被AWS看在眼中的劲敌是GCE,GigaOm的Barb Darrow先是撰写了一篇很有意思的文章《 8 things Google Cloud could do to freak Amazon out》,后又补充了《 What I missed in the Google vs. Amazon cloud debate ― fiber!》。这9点,也许就是谷歌GCE追赶亚马逊AWS要做的9件事,自然也是AWS防御的薄弱区。


这九点包括:发布保留实例 、 推出更多的托管服务、利用搜索、 提供更多不同类型的实例、 增添更多的区域、 提供虚拟机镜像导入/导出功能、 发挥光纤优势、 多宣传GCE技术领军人物、 加强执行力。

7. HBase写数据过程

Hadoop已成为当下最流行的对数据挖掘处理平台,同时,在YARN出现后,其生态圈也愈加繁荣;然而,Hadoop原生数据库HBase却因众多问题饱受诟病,比如部署难、以Java为中心等工程问题,以及故障转移、面向主从设计的架构问题,这直接导致了HBase人气甚至不如同为列存储类型的Cassandra。幸运的是,在我们之前有很多先行者对Hadoop进入了深入的研究,本次即为大家带来@无尘道长 的心得,博文从从client和server两个方面探讨HBase的写数据过程。

8. 汽车巨人福特让“数据”说话

福特数据科学负责人Michael Cavaretta是负责整理公司所有数据的数据分析师之一,这次他从通过数据了解汽车设计、考虑价值,而不仅仅是成本、追求新技术也要适可而止,有时候也要重视效益、不用崇拜数据科学家方面给大家介绍福特是如何让“数据”说话的。


Michael Cavaretta

进入20世纪后,福特经历一系列打击,面临绝境,福特转变传统思维寻求数据专家帮助,如今数据分析已经深入福特的企业文化,数据帮助福特了解用户需求、优化汽车设计、解决业务问题......“大数据”对福特公司有着很重要的意义,现在的福特就像是由无数个0和1构成。有关于汽车的数据,有关于这家世界五百强公司战略的数据,甚至还有关于客户如何看待福特公司这样的数据。

9. Hortonworks联手Red Hat,构建更强大的Hadoop

Red Hat和Hortonworks将合作整合大量的技术,Hortonworks看重Red Hat一直是开源社区的顶级贡献人,有良好的企业形象和销售渠道,而Red Hat要进一步的发展也需要有Hadoop的支持,双方可谓各取所需。新伙伴关系下的整个产品列表:

  • Red Hat 存储
  • Red Hat企业级Linux和OpenJDK平台
  • Red Hat企业级Linux OpenStack平台
  • Red Hat JBoss 数据虚拟化
                    

Hortonworks的首席执行官Rob Bearden 

Hortonworks还喊出了开源口号,想要与Red Hat和微软这样更大的平台供应商建立更深的联系,而MapR仍然努力想让自己的产品脱颖而出。Cloudera积极尝试 丢掉Hadoop供应商的标签,作为提供全方位数据管理的企业,从Teradata甚至IBM这样的公司抢走客户。

10. 在AWS上使用GPU实现分布式神经网络

Netflix最近承认正在开发新的技术开展人工智能领域的应用,着眼深度学习可以让Netflix的电影推荐更准确,但是深度学习领域还有很多技术难题未被解决,Netflix技术博客网站的Alex chen等人结合自身实践,从分布式机器学习的层次、优化CUDA Kernel、PCI 配置空间和虚拟环境、G2 实例、分布式贝叶斯hyperparameter优化等方面分享了在AWS上实现分布式人工智能网络的经验。


最后作者总结道:如果你需要在自己定制的基础设施上实现它、成本和复杂性将难以想象的。利用AWS有明显的好处,在实例的定制和使用资源时会有一定的支持。我们希望通过分享我们的经验来让别人更方便开发类似应用程序。

11-15. 其它云计算热点资讯还有大数据时代,看“小数据”如何支持决策、Hadoop Namenode以regular方式启动代码流程分析、详解并行逻辑回归、为Hadoop存储层增加对OpenStack Swift的支持、追本溯源 解析“大数据生态环境”发展现状,请继续关注CSDN云计算频道。(文/魏伟)

生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生