来源 | elsevier
译者 | 火火酱
责编 | 邓晓娟
出品 | CSDN云打算(ID:CSDNcloud)
在学习云打算的过程中,不可避免的便是研究各种文献。而在本文中,我们为大家搜集了大数据领域中被引用次数最多的论文及其择要,帮助大家理解论文主旨。感兴趣的小伙伴,可以自行搜索进行研究。
01 大数据随机森林大数据是统计学面临的紧张寻衅之一,从算法和理论的不雅观点来看,大数据会带来无数后果。
论文择要:
大数据包含大量的数据,同时也包含在线数据和数据异构性。近年来,人们通过例如线性回归模型、聚类方法和自举算法等统计学方法来处理大数据。随机森林(random forests)是由Breiman在2001年提出的一种基于决策树、凑集和自举思想的方法。通过这种强大的非参数统计方法,可以在单一和通用的框架中考虑回归问题以及两类和多类分类问题。
针对分类问题,本文对现有的将随机森林运用于大数据的发起有选择地进行了回顾。这些发起是基于并行环境以及随机森林的线上运用之上的。本文还将阐明在这些方法中如何处理袋外缺点(out-of-bag error)。
接下来,本文在大数据背景下对随机森林进行了各种阐明。末了,在两个弘大的数据集(1500万和1.2亿的不雅观测数据)、一个仿照数据集以及真实天下数据上实验了5个变量。结果显示,个中一个变量需二次采样。其余三个变量则与随机森林的并行化实现干系,或涉及自举法在大数据中的各种运用,或涉及“分而治之(divide-and-conquer)”算法。第五个变量与随机森林的在线学习有关。这些数值试验突出了不同变量的相对性能,也揭示了一些局限性。
02 系统化文献综述之云环境中数据复制技能论文择要:
云打算面临着许多寻衅,个中之一便是利用复制数据。数据复制是分布式海量数据管理的一项主要技能。其紧张目的是将数据放置在不同的位置,从而在不同位置有同一特定文件的多个副本。
复制是分布式环境中广泛研究的工具之一,在分布式环境中,一些数据的多个副本会被储存在不同地方,在个中办理创建、掩护和更新副本的本钱是非常主要且具寻衅性的问题。在过去的十年里,分布式打算的运用和架构发生了巨大变革,同时,复制协议也发生了巨大变革。
然而,只管这个问题十分主要,但到目前为止,还没有在分布式云环境中系统地研究过该问题。云环境中的数据复制分为静态方法和动态方法。在静态算法中,创建的副本数从一开始便是常量,是由用户从开始就决定的,或者是由云环境决定的。而在动态算法中,考虑到其所属的环境,副本数是由用户的访问算法来决定的。本文旨在系统地回顾这两类算法的数据复制技能,并分别谈论两者的特点。
03 大数据之项目集挖掘:比较剖析论文择要:
众所周知,项目集挖掘是一项探索性数据挖掘技能,用于创造隐蔽在数据凑集中所有有趣的关联。由于它支持不同的目标剖析,因此它在从网络流量数据到医疗记录的各种不同领域中都是十分有益的。
随着数据量的增加,人们利用Apache Hadoop和Spark等分布式打算框架的上风开拓出了不同的可扩展性数据挖掘算法。本文通过理论和实验的比拟剖析,回顾了处理大数据领域频繁项目集挖掘问题的基于Hadoop和Spark的可扩展性算法。由于项目集挖掘目标打算量很大,因此其分布和并行化策略会严重影响内存的利用、负载平衡和通信本钱。
本文详细谈论了频繁项目集挖掘分布式方法的算法选择方法,然后通过实验剖析比较了最前辈的分布式算法在合成数据集和实际数据集上的性能。在数据集特色(例如数据分布、均匀事物长度、记录数)和特定参数设置方面详细谈论了算法的优缺陷。末了,在理论剖析和实验剖析的根本上,提出了项目集挖掘问题并行化的开放研究方向。
04 为聪慧城市供应关联数据:以卡塔尼亚为例论文择要:
语义网技能,特殊是关联开放数据,供应了一种将城市作为物质、社会和技能系统共享知识的方法,从而支持聪慧城市运用程序的开拓。
本文通过先容一个基于卡塔尼亚安利的原型,旨在分享履历教训,可为其他有类似需求的案例供应实践参考。
本文谈论了实现句法和语义互操作性的主要性(作为将异构数据源转换为关联数据的结果):语义互操作性在数据级得到办理,以便顶层的进一步开拓。我们提出了一个智能城市综合数据模型,该模型集成了多个数据源,包括地理参考数据、公共交通、城市故障报告、道路掩护和城市垃圾网络。针对公共交通、城市故障报告和道路养护等领域,提出了一些新的本体设计模型。约请领域从业者和普通"大众利用原型并填写问卷,供应问题和反馈。
同时,还进行了一个打算实验,以评估该数据模型在实际可扩展性方面(而不是增加数据和在繁芜情形下的效率方面)的性能。研究所产生的所有数据、模型、原型和调查问卷结果都可从网上公开获取。
05 一种利用灰狼优化算法和MapReduce的新聚类方法论文择要:
随着技能的进步,数据量正迅速增长。须要更加高效地剖析方法来支持有关数据的智能决策。数据聚类是一种主要的数据挖掘剖析方法,广泛运用于数据剖析领域。面对日益增长的海量数据集的剖析需求,当今急迫须要改进传统的数据剖析方法。
本文针对大规模数据集基于提出了一种有效的聚类方法——基于MapReduce的灰狼优化算法(MR-EGWO)。该方法引入了一种新型的灰狼优化算法——增强型灰狼优化算法(EGWO),将灰狼的搜索策略与二项式交叉稠浊,并引入了莱维翱翔(lévy flight)步骤,从而增强搜索能力。
此外,该算法还可被用于优化聚类过程。实验在七个UCI基准数据集上测试了EGWO的聚类效率,并将其与五种现有的聚类技能(即K-均值、粒子群优化(PSO)、引力搜索算法(GSA)、蝙蝠算法(BA)以及灰狼优化算法(GWO))进行了比较。通过收敛图和箱线图验证了EGWO的收敛性和同等性。此外,将提出的EGWO在Hadoop框架中的MapReduce模型上并行化,并命名为MR-EGWO来处理大规模数据集。
其余,本文还从F-measure的角度验证了MR-EGWO的聚类质量,并将其与基于MapReduce的四种最优聚类进行了比较:并行K均值、并行 K-PSO、基于MapReduce的人工峰群优化(MR-ABC)、基于动态频率的并行k-bat算法(DFBPKBA)。实验结果表明,本研究提出的技能为大规模数据聚类供应了前景广阔且强大的替代方案。
06 快速深度卷积人脸检测在困难样本挖掘中的运用论文择要:
人脸检测是机器学习中一项主要的视觉信息剖析技能。大数据的兴起导致了海量可视化数据的积累,从而更加须要精确快速的剖析方法。深度学习方法为此问题提出了一个办理方案。
研究表明,大量高可变性数据演习可以显著提高其有效性,但这常日会导致昂贵的打算本钱并且使模型高度繁芜化。若以剖析海量数据集中的大量可视化内容为目标,模型的繁芜程度对模型是否能够取获胜利来说至关主要。本文先容了一种针对人脸检测的轻量级深度卷积神经网络(CNN),该网络设计的目的是减少演习和测试韶光,并使其有效性优于之前揭橥的深度卷积神经网络论文。
为了在不影响效率的条件下演习这种轻量级深度神经网络,本文提出了一种渐进式正例及困难负例挖掘的新演习方法,并证明了该方法能够显著提高演习速率和精度。此外,本研究还演习了一个能够检测个体面孔特色的独立深层网络,建立并评估了能够将两个网络输出相结合的模型。两种方法都能够检测被严重遮挡和各种姿势变革下的人脸,办理了真实情形下进行实时人脸检测的难题,本文提出的方法在无人翱翔器(UAVs)等移动环境中也适用。
07 列车耽误预测系统:大数据剖析视角论文择要:
目前利用的列车耽误预测系统并没有利用最前辈的工具和技能:从铁路信息系统网络大量列车历史运行数据,处理和提取有用且可操作的信息。相反,现在的预测系统依赖于铁路根本举动步伐专家基于经典单变量统计建立的静态规则。
本文旨在利用最新的大数据技能、学习算法和统计方法,构建一个面向大规模铁路网的数据驱动的列车耽误预测系统(TDPS)。特殊是,本文提出了一种针对浅层和深度极限学习机的快速学习算法,该算法充分利用了最新的内存大规模数据处理技能来预测列车耽误,并与目前最前辈的TDPSs算法进行了比较。来自意大利铁路网的真实数据表明,该方案能够改进目前最前辈的TDPSs算法。
08 高下文感知打算中的大数据运用——前景与寻衅论文择要:
大数据时期已经到来了,无数的运用程序和系统天生的数据量、种类和速率都是传统打算系统和数据库无法管理的。传感器已经存在与各种设备中,传感器网络的数据已经成为大数据的紧张来源之一。
本文紧张关注从数据派生高下文并据此行动的高下文感知打算系统是如何处理大量数据的。大型行业参与者,即谷歌、雅虎和亚马逊已经借助来自于电子邮件、谈天信息、浏览和购物历史的用户数据开拓了高下文感知运用程序。例如,Gmail通过理解航班预订信息来提醒用户把稳航班韶光表。同样,亚马逊会理解用户的喜好并推举干系商品等。在本文中,我们从大数据角度研究了高下文感知打算系统。首先,本文在传感平台根本上提涌现有事情的分类法,然后谈论了大数据高下文感知系统领域的最新发展,重点谈论了大数据高下文感知系统如何应对各种大数据寻衅。末了,本文对涉及设计和开拓高下文感知的大数据天生系统的开放性研究问题进行了深入剖析。
09 基于4V大数据流的高效资源管理系统论文择要:
成千上万的数据源正以前所未有的速率不断天生大数据流。对此类数据流的剖析须要云资源,随着云上大数据的发展,合理分配云资源成为一个主要的研究课题。当前利用的方法是根据数据特色分配云资源。但是由于数据天生的随机性,大数据流中的数据特色是未知的,这给选择和分配得当的资源到大数据流带来了困难。
针对这一问题,本文提出了一种高效的资源管理系统。该系统初步估计了大数据流在容量、速率、多样性和可变性方面的数据特色。估计值以名为数据特色(CoD)的向量表示。另一方面,借助自组织映射(SOM),可动态创建云资源集群。SOM利用CoD来创建集群并将其分配到大数据流。
此外,由SOM形成的集群的拓扑顺序可减少等待韶光。文中提出的系统已经由实验测试。实验结果表明,该系统不仅可以有效地预测数据特色,而且可以有效地提高云资源的性能。
10 用于深度学习大数据剖析的GPGPU神经网络原型论文择要:
大数据涉及大量繁芜的、持续增长的数据。考虑到数据存储和网络的快速发展,各组织都在网络包含有用信息的持续增长的大型数据集。为了在有效期内从这些数据集中提取信息,利用分布式和并行算法是十分主要的。机器学习是大数据剖析常用的方法,个中网络的数据被用于预测未来的行为。
利用人工神经网络进行深度学习是从繁芜数据集中提取信息的常用方法之一。与传统的概率机器学习技能比较,深度学习能够创建更为繁芜的模型,这为我们供应了有关如何原型化的在GPU和CPU集群上实行深度学习运用程序的分步指南。Python和Redis是本指南的核心支持工具。
本教程将能帮助读者在几个小时内理解构建分布式高性能GPU运用程序的根本知识。由于我们不依赖任何深度学习运用程度或框架,因此可以针对读者的想法在大数据上进行原型设计的任何并行算法来调度本教程。末了,本文将谈论如何从原型过渡到完备成熟的生产运用程序。
11大数据系统应对机器学习寻衅:大数据科学即做事论文择要:
近年来,人们见证了两大方面的进步,一这天常生活中产生和网络的数据规模的巨大进步,二是人们利用当代技能来处理、剖析和理解这些数据的能力的进步。这两大趋势的交点便是本日所说的大数据科学。大数据科学须要可扩展的体系构造来存储和处理数据。
云打算是支持大数据存储、处理和繁芜剖析运用程序的实用且经济的办理方案。本文将详细剖析用于支持大数据科学作为数据科学家们的商品做事的软件堆栈的构建模块。此外,研究还根据支持的做事模型对大数据剖析框架的最新技能进行了剖析和分类,目前这些框架大多在云上可用。与此同时,本文还供应了有关该领域的最新发展和寻衅。
12 Marcher:支持能源意识高效能打算和大数据剖析的异构系统论文择要:
过多的能源花费是设计和支配下一代超级打算机的紧张制约成分。要将高性能打算和大数据运用程序的能耗降至最低,就要从架构、系统支持和运用程序的多个层次上利用新的节能技能(硬件和软件)。
在过去的十年中,我们见证了在开拓更加节能的硬件和根本举动步伐方面的重大进展。然而,软件的能效并没有得到很大的提高。阻碍绿色软件技能探索的障碍之一便是短缺能够为技能评估和验证供应精确的、实时功率和能量丈量的工具和系统。
Marcher是一个异构高性能打算根本构造,旨在通过为能源敏感型高性能打算和大数据剖析研究供应支持来补充这一空缺。Marcher系统配备了Intel Xeon CPUs, Intel Many Integrated Cores (Xeon Phi), Nvidia GPUs, 可识别能耗的存储系统以及硬盘驱动器 (HDDs) 和固态磁盘 (SSDs)的稠浊存储。
为研究职员获取这些紧张打算组件分解后的细粒度能耗数据供应了易于利用的工具和界面。本文先容了Marcher系统的设计,并演示了Marcher功率丈量工具在不同研究项目中用于获取详细能耗数据的用法。
13 BLADYG:用于大型动态图的图形处理框架论文择要:
近年来,大型动态图的分布式处理变得越来越盛行,特殊是在某些领域,例如:社会网络剖析、Web图剖析和空间网络剖析。在这种情形下,人们提出了许多分布式/并行图形处理系统,例如:Pregel, PowerGraph, GraphLab, 和Trinity。
然而,这些系统智能处理静态图,而没有考虑蜕变图和动态图的问题。在本文中,我们考虑了图形处理系统中的规模和动态性问题。本文先容了BLADYG,一种能够办理大规模图形中的动态性问题的图形处理框架。
文中先容了在AKKA框架根本上实现BLADYG。我们通过将其运用于大型动态图的分布式k-core分解和划分等问题,对其性能进行了试验评估。实验结果表明,BLADYG的性能和可扩展性在大规模动态图中的表现令人满意。
14 用于识别癌症驱出发分的大型DNA甲基化数据集的分类论文择要:
DNA甲基化是一种经由了充分研究的基因润色,对调节基因组的功能至关主要。其改变在肿瘤发生和肿瘤抑制中起主要浸染。因此,研究DNA甲基化数据有助于创造癌症中的生物标志物。
由于关于DNA甲基化的公共数据越来越丰富——并且考虑到基因组中存在大量的甲基化点位(特色)——因此,有一个有效处理如此大数据集的方法是十分主要的。基于大数据技能,我们提出了BIGBIOCL算法,该算法可以将监督分类方法运用于具有数十万特色的数据集。它旨在通过迭代删除选定的特色来提取可选的和等价的分类模型。
通过对从癌症基因组图谱中提取的DNA甲基化数据集进行实验,重点研究三种类型的肿瘤:乳腺癌、肾癌和甲状腺癌。通过分类,准确地(准确率>97%)提取几个甲基化位点及其干系基因。结果表明,BIGBIOCL可以在几个小时内对数十万个特色实行数百次分类迭代。
此外,我们还将本方法与其他最新的分类器和基于网络剖析的DNA甲基化剖析方法的性能进行了比较。末了,实验还有效地皮算了多个替代分类模型,并从DNA甲基化大数据集中提取一组候选基因,进一步研究其在癌症中的积极浸染。BIGBIOCL、实验结果、以及进行新实验的指南可以在GitHub上面免费获取:
https://github.com/fcproj/BIGBIOCL
15 Spark参数调度方法论文择要:
由于Spark成功地向开拓职员隐蔽了与并行性、容错能力和集群设置干系的大部分繁芜性,对大数据流剖析来说,它已经成为极具吸引力的平台。
然而,这因此超过150个可配置参数为代价的,由于这些参数的组合数量呈指数增长,因此无法对其影响进行全面剖析。默认值使开拓职员可以快速支配他们的运用程序,但是有关是否可以提高性能的问题仍旧悬而未决。
在本文中,我们通过利用巴塞罗那超级打算中央对Spark的Marenostrum III (MN3)进行了大量实验,研究了最主要的可调Spark参数在改组、压缩和序列化方面对运用程度性能的影响。总体目标是辅导开拓职员变动默认值。我们以之前的事情为根本,在此研究中,将过去的履历映射到反复试验的迭代改进方法中,以基于少量实验运行的证据来调度任意运用程序中的参数。
该研究的紧张贡献在于提出了一种用于参数调度的系统的替代方法,该方法可以轻松地被运用于任何打算根本架构,并且在运用于MH3时,其结果与最初的结果不相上下。在验证的测试案例研究中,不雅观察到加速从20%开始。此外,新方法可以依赖利用样本来运行,而不是在完全的数据集上运行,这使其更加实用。
16 有效支持高维数据项目集挖掘的并行MapReduce算法论文择要:
在当现代界,许多科学运用(例如生物信息学或网络)正在不断天生大量数据。由于每个事宜常日都具有各种各样的特色,因此不断天生高维数据集。为了从这些繁芜的数据集中提取有代价的信息,可以利用不同的探索性数据挖掘算法来创造数据之间隐蔽的、分外的干系性。
频繁项目集挖掘是一种有效但打算量大的技能,常日用于支持数据探索。由于分布式和并行框架的遍及,能够处理大数据的可扩展方法的开拓已经扩展到频繁的项目集挖掘。不幸的是,当前大多数算法都是为处理低维数据集而设计的,在那些以高维数据为特色的用例中表现不佳。
本文先容了一种基于MapReduce、用于高维数据集的频繁项目集挖掘算法——PaMPa-HD。提出了一种有效的办理方案来并行化并加速处理过程。此外,本文还提出了轻松配置算法参数的不同策略。在真实高维用例上进行的实验结果表明,该方法在实行韶光、负载平衡和内请安题的坚固性方面是有效的。
17 在R中利用大数据编程:将剖析范围从一个节点扩展到数千个节点论文择要:
本文通过利用几个扩展软件包(包括来自pbdR项目的扩展)先容了如何通过R措辞实现可扩展性的教程概述。用到的软件包包括MPI、PBLAS、ScaLAPACK、I/O库、配置库等。
虽然这些库在大型分布式平台上的表现最为出色,但他们在小型集群上也能很好的运行,而且令人惊异的是,纵然在只有两个内核的条记本电脑上也能流畅地事情。
本教程首先先容了图在考虑并行实现之前提高R代码的性能。由于R是一种高等措辞,以是一个函数可以有很深的操作层次。对付大数据来说,这很随意马虎导致效率低下。概要剖析是理解R代码性能的主要工具,可用于串行和并行改进。pbdR软件包为开拓新型分布式数据剖析算法供应了高度可扩展功能。这种级别的可扩展性是其他剖析软件所无法比拟的。
对付100GB及以上的数据,繁芜的剖析算法可实现交互式速率(秒)。这件事得以实现是由于接口对可扩展库只增加了很少的本钱。此外,这常日是在串行R代码很少或没有变动的情形下实现的。本概述包括各种繁芜程度不同的代码,阐明了并行读取数据、将串行代码转换为分布式并行代码的过程以及如何在R中进行分布式矩阵打算的过程。
18 聚类算法BIRCH的变体论文择要:
近年来,随着大型数据集的可用性和并行打算体系构造的兴起,聚类算法又重新引起了人们的关注。然而,大多数聚类算法都有两个缺陷:它们无法随数据集大小的增加而很好地扩展,并且常常须要适当的参数化(这并不随意马虎)。本文先容了A-BIRCH——BIRCH聚类算法的自动阈值估算方法。
该方法从数据中计算BIRCH的最优阈值参数,使BIRCH纵然在没有全局聚类阶段(常日是BIRCH的末了一步)的情形下依然能进行聚类。如果数据知足某些约束条件,则可能实现,如果不知足这些约束条件,A-BIRCH将会在显示结果之前发出干系警告。
这种方法使BIRCH终极的全局聚类步骤在很多情形下都不是必需的,这带来了两个好处。首先,我们不须要事先知道集群的数量。其次,如果没有打算量巨大的终极全局聚类,快速BIRCH算法将会变得更快。
对付非常大的数据集,我们引入了BIRCH的另一种变体形式——MBD-BRICH,它与A-BIRCH结合后具有分外上风,但其整体而言是独立的,并且也具有一样平常性的上风。
19 Smart4Job:利用韶光序列预测和语义分类进行智能事情岗位分享的大数据框架论文择要:
最近几年,随着互联网的发展,涌现了专用于自动化招聘的门户网站和社交网络,从而导致了优化算法的广泛利用。为此,人们创建了许多求职网站,以便更好地发布和分享事情机会。
对付招聘职员来说,要选择干系的招聘网站来发布招聘信息有时会很困难,由于他们总是希望能在短韶光内吸引到最好的求职者。此外,某些招聘网站还会有各种不同的业务种别,这也让选择变得非常困难。
针对这些问题,本文建立了一种新的招聘公告推举系统——Smart4Job,该系统能够为新的招聘信息推举得当和招聘网站。该系统基于多个整合为一体的大数据平台,包含领域知识剖析和韶光预测模型。招聘公告的语义分类须要利用受控词汇表进行文本分析。
借助浏览历史,韶光序列剖析模型可以为给定岗位推举最佳招聘网站。终极的决策过程将这些模块的答案组合在一起。该系统已经在真实数据的根本上进行了评估,初步结果表明,该系统具有良好的运用前景。
20 运用并行打算技能剖析Terabyte TB级大气边界层层模型输出论文择要:
在大气科学中,随着人们越来越随意马虎得到能够处理具有风雅时空分辨率的打算资源,仿照输出的大小也持续增长。随着输出大小的增加,串行数据剖析方法会变得不堪重负,从而导致处理过程永劫光延迟,或者由于内存限定而导致完备失落败。并行数据剖析方法可以缓解这些问题,然而大气科学家们每每并不理解如何实现这一目标。
因此,须要通过实例方法来辅导如何在大气仿照大数据剖析中利用并行处理方法。本文提出了一些十分实用的方法,通过这些方法,可以利用通报接口(MPI)和Python并行实行剖析。这些方法首先考虑了特天命据剖析过程的固有空间依赖性。通过识别这些依赖性,可以在最小化进程间通信的根本上实现数据集的水平或垂直分布。
此外,剖析方法分为数据传输受限或打算受限两种。在数据传输受限问题中,数据传输韶光大于处理韶光。
在打算受限问题中,处理韶光大于数据传输韶光。结果表明,随着处理器数量的增加,打算受限问题的实行韶光得到了改进;增加节点数也可以最大程度上改进数据传输受限的问题。为了进一步提高打算受限问题的性能,实验利用了图形处理单元(GPU)和统一打算架构(CUDA)框架。实验结果表明,该GPU实验比MPI版本的测试剖析方法有了进一步的改进。
21 无线多媒体传感器网络中用于监控的图形数据库的大数据模型仿真论文择要:
传感器以各种各样的形式存在于天下各地,如手机、监控摄像头、智能电视、智能冰箱以及血压监测仪。常日来讲,大多数传感器都是某些其他系统中的一部分,与系统中的其他传感器共同组成网络。个中有一个网络是由数百万个连接到互联网的传感器组成的,这便是物联网(IoT)。
随着无线通信技能的发展,多媒体传感器及其网络有望成为物联网的主要组成部分。在失火探测、城市监控、预警系统等多个领域已经有了很多关于无线多媒体传感器网络的研究。所有这些运用程序都是通过实时数据流定位传感器节点并永劫光采集数据,这些数据可以成称为大数据。大数据可以是构造化的也可能是非构造化的,须要存储以进行进一步的处理和剖析。
剖析多媒体大数据是一项艰巨的任务,须要进行高层次建模才能有效地从数据中提取有代价的信息知识。在本研究中,我们提出了一个基于图数据库模型的大型数据库模型,用来处理无线多媒体传感器网络天生的数据。我们引入了一个仿照器来天生综合数据并利用图形模型作为大数据库来存储和查询大数据。
为此,我们评估了著名的基于图的NoSQL数据库、Neo4j和OrientDB,以及关系数据库MySQL。我们在仿照器上进行了大量的查询实验,证明了在无线多媒体传感器网络中,某些数据库系统是有效且可扩展的。
22 可视化和可扩展打算的闭环大数据剖析方法论文择要:
许多科学调查都须要进行数据密集型研究,个中须要网络和剖析大量的数据。为了从大数据中理解更多信息,我们首先须要从数据中提出最初的假设,然后测试并验证这些关于数据的假设。
可视化常日被认为是一种从给定的数据集中提出假设的好方法。打算算法与可扩展打算相结合可以对大数据实行假设考验。此外,交互式的可视化界面能够让该领域的专家们直接与数据进行交互,参与到循环中,以完善其研究问题并重新定向其研究方向。
在本文中,我们谈论了一个集成了信息可视化、可扩展打算和用户界面的框架,以探索大规模的多模态数据流。从数据中创造新知识须要对这种规模的数据集进行探索性的剖析,使我们能够精确的看待数据,须要结合自下而上的模式创造和自上而下的人类知识来利用人类感知系统的力量进行创造。
我们从一种新颖的交互式韶光数据挖掘方法开始,该方法帮助我们创造可靠的顺序模式和精确的多元韶光序列的时序信息。然后我们进行并行化的办理方案,该方案可以完成利用迭代MapReduce任务从大规模韶光序列中提取可靠模式的任务。本研究利用视觉信息技能帮助科学家交互式地探索、可视化和理解其数据。例如,用户可以通过异步web做事访问在HPC上运行的并行挖掘算法。
通过这种办法,科学家们可以通过比较中间数据来提出新一轮的剖析,以得到更具科学意义和统计上更为可靠的模式,因此统计打算和可视化可以相互促进。此外,框架中的可视化接口使科学家可以直接参与循环,并可以重定向剖析方向。以上研究结合起来,构成了一种可以通过可视化和可扩展性打算来实行闭环大数据剖析的高效方法。
23 Hadoop MapReduce在SSDs上剖析社交网络的性能论文择要:
固态硬盘(SSDs)的涌现引发了大量调查和开拓新驱动器潜力的研究。本研究的重点是理解SSDs与硬盘驱动器(HDDs)在Hadoop MapReduce根本存储时的相对性能和上风。特殊是,本次研究将从所有早期的干系事情等分离出来,不该用之前的事情负载,而是检讨适宜对呈现不同实行模式的繁芜网络进行剖析的MapReduce任务和数据。
只管会涉及大量用于繁芜网络剖析的算法和实现,我们还是选择了“标杆剖析法(benchmarking methods)”,个中包含在繁芜网络中实行本地和网络范围内的操作的多种方法。同时,由于其可以用作更繁芜的网络处理运用程序原型,以是也足够通用。我们在真实的社交网络数据上实行这些算法(并打消了可能严重影响实验结果的网络宽带的影响),评估了SSDs和HDDs的性能。
结果表明SSDs对Hadoop是有益的,这一结果也得到了部分早期研究的证明。然而,我们也供应了有力的证据,证明运行中的运用程序的处理模式也具有主要浸染,因此在未来的研究中,不能盲目地将SSDs添加到Hadoop中,而应建立组件来评估运用程序的处理模式,然后直接将数据放到适当的储存介质中。
24 适用于创新临床模型的大数据合规性论文择要:
在医疗康健领域,信息十分主要,人体是数据的紧张来源。因此,天下卫生保健面临的新寻衅便是如何利用这些弘大的数据去对其进行解构。
为了从这一上风中获益,科学技能为人们供应了一种名为“大数据剖析”的办理方案,该方案能够管理海量数据,这些数据的性子可以不同,也可以是来自不同的打算机化医疗保健来源,由于在所有紧张康健领域中数字技能的输入都能带来巨大变革。
临床情报包括通过利用打算机工具实现的剖析方法、提取原始临床数据并将其转换为主要见地的过程、能够供应更好临床疗效的新的目的和知识。因此可以说,通过患者数据剖析,临床智能将成为办理所有照顾护士方面问题的标准操作程序。
本文的目的是通过数据挖掘和过程挖掘技能来实现临床情报方法,展示这两种运用于“实际过程”数据析取的方法间的差异,以便通过“符合性检讨”与公司合规性模版(所谓的“Model 231”)中的程序进行比较。
25 通过利用城市大数据进行颗粒物预测来实现可持续的聪慧城市,抛弃昂贵的空气污染根本举动步伐论文择要:
在数据时期和城市数字化时期中产生了大量与城市环境干系的数据集和数据流。从聪慧城市的各种资源中获取和剖析数据至关主要。例如,实时的空气污染数据对付掌握空气污染、实现城市的可持续发展、保护人类免受空气污染的危害来说是非常主要的。然而,在现实生活中,空气污染占均匀培植投资和掩护本钱过高。
本文旨在研究如何在不该用昂贵的污染传感器和设备的情形下,以经济有效的方法丈量空气污染。为实现这一目标,我们建立了颗粒物预测模型。该模型由多个组件构成,以神经网络和回归为核心,集成异构的多个城市数据源,从迁移学习视角对颗粒物进行预测。
颗粒物预测实验结果表明,这些数据源能够较好地预测颗粒物,与仅仅以空气污染传感器特色为根本的模型比较,其预测结果更为空想。本次研究中,我们用来自丹麦奥尔胡斯市的城市数据对模型进行了测试评估,并将模型性能与各种指定基线进行比较。该模型相对付基线的优胜性表明了其实用性。
原文链接:
https://www.journals.elsevier.com/big-data-research/most-cited-articles