酷勤网 – 程序员的那点事!

当前位置:首页 > 职业 > 站长经验 > 数据分析 > 正文

龙8娱乐官网,龙8国际pt老虎机官网:Apache Spark不是唯一,快来了解三种新兴的开源数据分析工具

浏览次数:次 51CTO.COM 2016年06月22日 字号:

龙8娱乐官网,龙8国际pt老虎机官网,  大学科技园获批国家级科技企业孵化器和国家级大学生创业实习基地,科技转移中心获批国家技术转移示范机构.学校先后与多个地区签署全面战略合作协议,建立校地共建载体平台6家、校企联合研发中心25家,校企联盟74家,签订校地校企合作项目340余项。同时他希望各学院、各部门通力协作、密切配合、齐抓共管,确保2014年学生军训工作安全、顺利、圆满完成。“基于专业、融入产业、引导创业、带动就业”为工作理念,切实把创新创业教育融入到人才培养的全过程,同时,不断引智添力,联合高校、企业、政府、社会等多方力量,建立了合作共赢的长效机制,构建了“意识培养—能力提升—项目孵化—专业服务”四位一体、多方联动的创新创业教育体系。药药切克闹小队队员均来自江南大学药学院,作为制药工程的学生,有义务宣传过期药回收的常识。

他强调同学们要努力提高自己的主体性、能动性、协调性,让同学们更加了解大学生活更多的是要依靠自己,让自己强大起来才是硬道理。分别是由昃跃峰陆菁老师共同指导的作品《TheBloomingSea—基于体感交互的响应式音画互动装置》荣获一等奖,由龙娟娟、陈飞老师指导的信息图设计《中国旗舰物种录》等四件作品荣获二等奖,由李剑老师指导的作品《无锡大运河》等三项作品荣获三等奖,还有一项由盛歆漪老师指导的作品《TEC.音行空间——基于3D视听一体效果的音乐可视化展示》荣获参与奖。坚持党的领导,自觉将党的理论和路线方针政策贯彻落实到共青团改革、学生组织改革各方面、全过程,牢固树立政治意识、大局意识、核心意识、看齐意识。  “打铁还需自身硬。

该研究早于国家2010年863重大临床诊断项目的立项,具有前瞻性。团委书记王维介绍了近期团委主要工作,提出在大学生中开展“与信仰对话”、“不忘初心跟党走”活动中,在新媒体多元化的形势下,充分发挥关工委老同志积极作用,引导全校学生崇德立人。为帮助同学对“理想信念”产生切身体会,黄书记结合当代大学生就业实际,进一步讲解了理想过于美好的危害,建议同学们选择的理想应具有较高的实践性,为新生们树立近期理想与远期理想提供了重要帮助。在Nature子刊、PNAS、JACS、BRAIN、《中国社会科学》等国内外学术刊物上共发表论文6700余篇,其中被SCI、EI、SSCI和AHCI等收录论文1371篇,被CSSCI收录1088篇;出版著作140部,出版教材57部,获得专利148项。

龙8娱乐官网,龙8国际pt老虎机官网

物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。我们需要全面完善数据分析生态系统的新工具。值得注意的是,许多这些工具是为了处理流数据而定制的。本文将探讨三种新兴的数据分析工具。

【51CTO.com快译】这些数据分析项目大行其道:Apache Grappa、Apache Drill和Apache Kafka。

在数据分析方面,影响深远的变化正在酝酿之中,而开源工具在引领许多变化。当然,你可能已熟悉这个领域的一些明星开源项目,比如Hadoop和Apache Spark,不过现在出现了强烈的要求,需要全面完善数据分析生态系统的新工具。值得注意的是,许多这些工具是为了处理流数据而定制的。

物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所(SETI)甚至在开展合作,分析数TB复杂的外太空无线电信号流。

虽然Apache Spark在数据分析领域抢走了许多风头,那是由于IBM及其他公司在这方面投入了数十亿美元的研发资金,但几个藉藉无名的开源项目也在迅速崛起。下面是值得探讨的三种新兴的数据分析工具。

1.Grappa

大大小小的企业组织正在致力于研究从数据流提取宝贵信息的新方法,其中许多在处理集群上生成的数据,而且在日益处理商用硬件上生成的数据。这样一来,成本合理的、以数据为中心的方法受到了重视,这种方法可以改善MapReduce、甚至Spark等工具的性能和功能。Grappa开源项目这时候闪亮登场了,它可以在大众化集群上扩展数据密集型应用程序,并且提供了一种新型的抽象机制,比经典的分布式共享内存(DSM)系统更胜一筹。

你可以在此获得Grappa的源代码,并找到关于它的更多信息。Grappa的起源是这样的:一群在克雷(Cray)系统上运行大数据任务方面有着丰富经验的工程师想,是不是可以与克雷系统在现成商用硬件上能够实现的分析功能一较高下。

正如开发人员特别指出:“Grappa在足够高级的层面提供了抽象,因而包括数据密集型平台所常见的许多性能优化。然而,其相对低级的接口又提供了一种方便的抽象,以便在此基础上构建数据密集型框架。(简化版)MapReduce、GraphLab和关系查询引擎的原型实现就建立在Grappa的基础上,它们的性能比原有系统更胜一筹。”

采用BSD许可证的Grappa在GitHub上可以免费获取。如果你有兴趣看看Grappa是怎么实际运行的,可以在应用程序的README文件中遵照通俗易懂的快速启动说明,构建Grappa应用程序,并在集群上运行。想了解如何编写自己的Grappa应用程序,不妨阅读这个教程

2.Apache Drill

Apache Drill项目在大数据领域带来了重大的影响,以至于MapR等公司甚至把它纳入到其Hadoop发行版中。它是Apache的一个顶级项目,与Apache Spark一同应用于许多流数据场景。

比如说,在今年1月份召开的纽约Apache Drill大会上,MapR的系统工程师展示了Apache Spark和Drill如何可以协同用于涉及数据包捕获和近实时查询及搜索的一种使用场合下。

Drill在流数据应用程序中之所以如此出名,是因为它是一种分布式、无模式(schema-free)的SQL引擎。开发运维和IT人员可以使用Drill,以交互方式探索Hadoop及其他NoSQL数据库(比如HBase和MongoDB)中的数据。不需要明确定义和维护模式,因为Drill可以自动充分利用嵌入到数据中的结构。它能够在操作员之间的内存中流式传输数据,并且尽量减少使用完成查询所需的磁盘。

3.Apache Kafka

Apache Kafka项目已凭借实时数据跟踪功能俨然成为一颗明星。它提供了处理实时数据的功能,具有统一、高吞吐量、低延迟等优点。龙8娱乐官网,龙8国际pt老虎机官网Confluent及其他组织还开发了自定义工具,以便Kafka与数据流结合使用。

Apache Kafka最初由LinkedIn开发,后来在2011年年初开放了源代码。它是一种经过加固和测试的工具,许多企业组织要求员工拥有Kafka方面的知识。使用Kafka的知名公司包括思科、网飞、贝宝、优步和Spotify。

LinkedIn当初开发Kafka的那些工程师还成立了Confluent,它专注于Kafka。Confluent大学为Kafka开发人员以及操作员/管理员提供培训课程。现场课程和公开课程都有提供。

你是否对比较藉藉无名、但迅速崛起的开源数据分析项目有兴趣?如果是这样,你可以在我最近撰写的关于这个话题的一篇文章(https://www.linux.com/news/rise-six-unsung-apache-big-data-projects)中找到更多此类项目。

无觅相关文章插件,快速提升流量