当前位置:首页 > 公司新闻 >为大数据处理点亮一盏明灯
美国服务器

SOSWEI快讯:为大数据处理点亮一盏明灯:

2014/12/2 9:03:27 | 浏览:357 | 来源:www.soswei.com
新闻报
Spark:为大数据处理点亮一盏明灯

Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候,Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在2009年以MapReduce为基础构建起分析模型实在是件费心费力而又进展缓慢的工作,因此AMPLab设计出Spark来帮助开发人员对大规模数据集执行交互分析、从而运行各类迭代工作负载——也就是对内存中的同一套或者多套数据集进行反复处理,其中最典型的就是机器学习算法。

Spark的意义并不在于取代Hadoop。正相反,它为那些高度迭代的工作负载提供了一套备用处理引擎。通过显著降低面向磁盘的写入强度,Spark任务通常能够在运行速度方面高出Hadoop MapReduce几个数量级。作为"寄生"在Hadoop集群当中的得力助手,Spark利用Hadoop数据层(HDFS、HBase等等)作为数据管道终端,从而实现原始数据读取以及最终结果存储。

作为由Scala语言编写的项目,Spark能够为数据处理流程提供一套统一化抽象层,这使其成为开发数据应用程序的绝佳环境。Spark在大多数情况下允许开发人员选择Scala、Java以及Python语言用于应用程序构建,当然对于那些最为前沿的层面、只有Scala能够实现大家的一切构想。

Spark当中的突出特性之一在于利用Scala或者Python控制台进行交互式工作。这意味着大家可以在尝试代码运行时,立即查看到其实际执行结果。这一特性非常适合调试工作——大家能够在无需进行编译的前提下变更其中的数值并再次处理——以及数据探索——这是一套典型的处理流程,由大量检查-显示-更新要素所构成

Spark的核心数据结构是一套弹性分布式数据(简称RDD)集。在Spark当中,驱动程序被编写为一系列RDD转换机制,并附带与之相关的操作环节。顾名思义,所谓转换是指通过变更现有数据——例如根据某些特定指标对数据进行过滤——根据其创建出新的RDD。操作则随RDD自身同步执行。具体而言,操作内容可以是计算某种数据类型的实例数量或者将RDD保存在单一文件当中。

Spark的另一大优势在于允许使用者轻松将一套RDD共享给其它Spark项目。由于RDD的使用贯穿于整套Spark堆栈当中,因此大家能够随意将SQL、机器学习、流以及图形等元素掺杂在同一个程序之内。

熟悉各类其它函数型编程语言——例如LISP、Haskell或者F#——的开发人员会发现,除了API之外、自己能够非常轻松地掌握Spark编程方式。归功于Scala语言的出色收集系统,利用Spark Scala API编写的应用程序能够以干净而且简洁的面貌呈现在开发者面前。在对Spark编程工作进行调整时,我们主要需要考虑这套系统的分布式特性并了解何时需要对对象以及函数进行排序。

拥有其它程序语言,例如Java,知识背景的程序员则往往没办法快速适应Spark项目的函数编程范式。有鉴于此,企业可能会发现找到一位能够切实上手Spark(从这个角度讲,Hadoop也包含其中)的Scala与函数编程人员实在不是件容易的事。

推荐配置
  • CPU:六核至强 E5-2620 2 0 Ghz
  • 内存:32G
  • 硬盘:1TB
  • 带宽:100M独享 30T月流量
  • 防御:20GB
  •     IP:1个
立即购买    >>更多详情请点击
美国洛杉矶高防机房增值服务
  • 下机时间:12-48小时,缺货除外;
  • 提供免费的linux操作系统,包括32位和64位;
  • windows 2003/2008 企业版(32位/64位) 加收300元/月;一个月免费提供2次重装,第3次收费100元;
  • 内存升级:升级32G内存加收 300元/月;
  • 硬盘升级:额外加1TGB硬盘加收100元/月 ,额外加120GB SSD 硬盘加收200元/月
  • 增加IP:每IP/100元(500M防护)
  • 防护:攻击超筏值自动保护IP,流量下降自动解封,采用思科Anti-DDOS集群防护。
  • 艾海威网络将竭力保障客户数据安全,但客户仍需主动、及时地备份您的宝贵数据,以防意外;
立即购买    >>更多详情请点击
soswei网络运营部编稿 2014-11-03