地  址:江苏省南京市玄武区玄武湖
电  话:4008-888-888
邮  箱:9490489@qq.com
商  务QQ:2249937563
免费创建个人博客:六款机器借鉴云测评陈述
作者:管理员    发布于:2020-06-07 13:53   文字:【】【】【
六款机器借鉴云测评陈述 在本文中,大家将别离对亚马逊、微软、谷歌、Databricks、HPE和IBM各大公司的机器借鉴东西套件的运转从广度、深度和易用性等方面进行深刻的测评分析。

中国IDC圈5月17日报导,大家所谓的机器借鉴能够有多种情势。而最纯净的情势则为分析人员们提供了一组数据摸索东西、一个ML模型挑选、强壮的解决方案算法和一种利用解决方案来进行猜测的办法。亚马逊、微软、Databricks、谷歌和IBM的产物都提供了猜测API,使得分析人员有了差别量的管束。而HPE的云分析平台解决方案Haven OnDemand则为二元分类问题提供了有限的猜测API。

然而,其实不是每个机器借鉴的问题都有必要从零初步解决。某些问题能够经过对充足大的样本进行培训,进而得到更遍及的适用。例如,语音到文本、文本到语音、文安分析和人脸辨认往往是 罐装 的解决方案需要解决的问题。故而,很多机器借鉴云效劳提供商们经过API提供这类功用,允许开发人员将其归入他们的应用程序也就不足为怪了。

这类效劳将可以辨认美式英语的发音(以及别的一些言语)并缮写下来。可是,一款既定的效劳关于某一名既定的说话人的详细事件情况将取决于说话人是否夹杂方言、说话人的口音、以及该解决方案此前关于相似的方言和口音的锤炼状况。微软的Azure、IBM、谷歌和Haven OnDemand均提供了语音到文本的效劳。

有许多类型的机器借鉴的问题。例如,回归问题试图经过别的观察来猜测一个接连变量(如出售);以及分类问题试图猜测一组既定观测的类别是否会下降(例如,废物邮件的数量)。亚马逊、微软、Databricks、谷歌、HPE和IBM均提供了相应的东西以解决一系列的机器借鉴方面的问题,固然,某些东西包套件是比其他愈加完整。

在这篇文章中,我将简要地与广阔读者一同讨论这六款商用的机器借鉴解决方案,其间有内容会链接到五篇现已宣布的之前由我所撰写的完整版的测评文章。可怜的是,谷歌于本年三月份发表的基于云的机器借鉴东西和应用程序远远在谷歌云机器借鉴的公共可用性之前。

亚马逊的机器借鉴

亚马逊试图让机器借鉴可以更易的让一般平庸的普通用户所可以触摸得到。其旨在为那些了解正在被解决的事务问题的分析人员效劳,不管这些分析人员是否真正明白数据科学和机器借鉴算法。

通常,在一般状况下,当您采用亚马逊机器借鉴时,起首需要整顿数据,并以CSV格局将您的数据上传到S3;而后创立、培训和评价一款ML模型;最后经过创立批量办理或进行实时猜测。在整个过程当中,每一步都是迭代的。机器借鉴其实不是一副简单的、静态的灵丹妙药,即便是关于亚马逊的算法的挑选。

亚马逊机器借鉴支撑3种模型:二元分类、多类分类和回归分析,其间每品种型都有一种算法。为了进一步的优化,亚马逊机器借鉴采用随机梯度下降(Stochastic gradient descent,SGD),这使得多接连性跳过了对每一个样品小批量锤炼数据和更新功用的权重,以最小化丧失函数(loss function)。丧失函数反映了实践值和猜测值之间的差距。梯度下降优化事件只能在接连的、可区分的丧失函数中很好地运作,如逻辑函数太平方丧失函数。

关于二元分类,亚马逊机器借鉴采用逻辑回归(逻辑丧失函数加SGD)。

而关于多类分类,亚马逊机器借鉴则利用多项逻辑回归(多项逻辑丧失加SGD)。

关于回归分析,亚马逊机器借鉴采用线性回归(平方丧失函数加上SGD)。

在亚马逊机器借鉴中培训和评价一个二元分类模型之后,您能够挑选本人的分数阈值,以达成您所期望的过错率。在上图中,大家现已将默许阈值添加了0.5,这样大家就能发生一组更强的出售线索以完成市场营销和出售意图。

亚马逊机器借鉴从方针数据的类型抉择机器借鉴所解决的使命的类型。例如,借助数值方针变量猜测问题便意味着回归分析;借助非数值方针变量猜测问题时,如果惟独两个方针状态其即是二元分类;如果有两个以上的方针状态即是多类分类。

在亚马逊机器借鉴中关于功用的挑选有窍门。一旦对数据源进行了形容性统计,亚马逊将创立一个默许的办法,该办法使得您能够在您的机器借鉴模型中利用或重写掩盖该数据。

一旦您有了一个契合您的评估要求的模型,您能够用它来成立一个实时的网络效劳,或者生成一个批办理的猜测。然而,务必要记住的是,差别于物理常数,人们的行为往往会随工夫而变化。您将需要守时查抄来自于您的模型的猜测的精度指标,并依据需要从头培训。

Azure机器借鉴

相比之下,较之亚马逊的机器借鉴,微软公司则试图为有经验的数据科学家们提供一种全种类的算法和东西。因而,Azure机器借鉴是更大的微软Cortana分析套件产物的一局部。Azure机器借鉴还具有一个拖曳界面,用于构建模型锤炼和从模块评价数据流。

Azure机器借鉴事件室包括导入数据集、培训和出书的试验模型、Jupyter Notebook办理数据、以及保存培训模式的设备。机器借鉴事件室包括几十个样本数据集,五种数据格局改换,几种用来读取和写入数据的方式,几十种数据改换,以及三种功用选项。在Azure机器借鉴中,您会发现用于异样检测、分类、聚类和回归分析的多种模式;分数模型的四种办法;评价模型的三种策略;和培训模型的六道工序。您也能够用一对OpenCV(开源核算机视觉)模块、统计功用及文安分析。

这是一个很大的工具,理论上足以以任何模型办理任何一品种型的数据,只需您了解事务,数据和模型。当罐装Azure的机器借鉴事件室模块无奈成全您的须要时,您能够开发Python或R模块。

您能够利用Jupyter Notebook开发并测试Python 2和Python 3言语模块,扩展Azure的机器借鉴Python客户端库(以便与存储在Azure的数据事件)、Scikit-Learn库、matplotlib和NumPy。Azure的Jupyter Notebook最终也将支撑R。目前,您能够在本地利用RStudio,并可以在将来依据需要扭转Azure的输入和输出,或在微软数据科学VM装配RStudio。

当您在Azure的机器借鉴事件室创立一个新的试验时,您能够重新初步或者挑选从约70个微软样本初步,其掩盖了大局部常见的模式。而在Cortana Gallery有一个额定的社区内容。

Azure的机器借鉴事件室能够疾速事件为颁布一款锤炼有素的模型生成一个Web效劳。这个简单的模型来自Azure机器借鉴的五个步骤的互动先容。

该Cortana分析过程(CAP)从一些规划和设置步骤初步,这是适当要害的,除非您是一名锤炼有素的数据科学家,现已关于事务的问题、数据和Azure机器借鉴有着充沛的熟悉,而且现已为项目发明了必要的CAP环境。CAP环境可能包含Azure存储帐户、一台微软数据科学虚构机、一个HDInsight(Hadoop)集群和一处具备了Azure机器借鉴事件室的机器借鉴事件空间。如果相关的挑选使您感到勾引,微软文档会为您解释为什么您需要每一项挑选。CAP持续五个办理步骤:摄取数据、摸索性数据分析和预办理、特征的创立、模型的创立和模型的布置和消费。

微软最近颁布了一系列的认知效劳,包含了从Project Oxford到Azure preview。这些都是语音、文安分析、人脸辨认、表情辨认和相似功用的预培训,他们为您能够经过培训本人的模型所完成的功用进行了增补。

Databricks

Databricks是一款基于Apache Spark的商用云效劳,是一款开源的集群核算框架,包含了机器借鉴库、集群治理、相似于Jupyter的互动notebook、仪表板和打算使命。Databricks公司是由发明了Spark的人所兴办的,故而这款Databricks效劳简直能够说是能够毫不费力的运转和范围化扩展Spark集群。

其library、MLlib,包含了一个规模遍及的机器借鉴和统核算法,都是专为基于Spark架构的散布式内存而设计的。除了执行MLlib之外,还包含执行汇总统计、相关性、抽样、假设查验、回归与分类、协同过滤、聚类分析、降维、特征提取和改换功用,以及优化算法。换句话说,其是为有经验的数据科学家们所提供的一款适当完整的东西包。

上图这个现实的Databricks notebook,以Python代码编写,示范了分析一初出名公共自行车租赁数据集的一种方式。在notebook的这一局部,大家正在利用穿插验证以运转多个梯度增强型树回归锤炼管道。

针对那些现已了解数据统计并能至少有一点编程布景的人员,Databricks被设计为一个可扩展的、相对于易于利用的数据科学平台。而为了可以有用地利用它,您应该认识一些SQL的常识,要么具备Scala、R或Python的相关常识。而如果您通晓您所挑选的编程言语的话,那将是极好的,以是您能够在利用Databricks notebook的样本在免费的Databricks社区版本群集上运转时,专注借鉴Spark。

谷歌云机器借鉴

谷歌最近颁布了一系列的机器借鉴相关的产物。其间最有趣的产物是云机器借鉴和云语音API,都是有限的测试预览版。谷歌翻译API能够执行超过80种言语和变体的言语辨认和翻译,而Cloud Vision API能够从图画中辨认各种功用。

而谷歌Prediction API则可以培训、评价和猜测回归分析和分类问题,没有利用算法的选项。其是从2013年初步推出的。

现在,谷歌的机器借鉴技能、云机器借鉴平台利用谷歌的开源TensorFlow库用于培训和评价。TensorFlow是由谷歌的Brain团队开发的利用数据流图进行数值核算的通用库。其与谷歌云数据流、谷歌的BigQuery、谷歌云Dataproc、谷歌云存储和谷歌Datalab进行了充沛的集成。

我已从其GitHub库中查看了TensorFlow代码;查看了一些C,C ++和Python代码;并研讨了TensorFlow网站和TensorFlow白皮书。TensorFlow允许您在一台桌面台式机、效劳器或挪动设施上布置一个或多个CPU或GPU核算,其有各种百般的培训和内置的网络算法。在极客的采用范围方面,比率粗略是非常之九。其不只远远超出了事务分析的功用,乃至对许大都据科学家也多是很难的。

谷歌翻译API、Cloud Vision API和新的谷歌云语音API 是预培训的ML模型。据谷歌先容,其云语音API利用的是与支撑谷歌的应用程序中的语音查找和谷歌键盘的语音输入同样的神经网络技能。

HPE Haven OnDemand

Haven OnDemand是惠普企业公司(HPE)进军云核算机器借鉴的初试牛刀之作。Haven OnDemand的企业查找和格局改换是其最强的效劳。因为该效劳是基于IDOL,HPE的私人查找引擎的,这也就不足为怪了。不外,Haven OnDemand更有趣的功用还不彻底成熟。

现在,Haven OnDemand已有音频视频分析、连贯器、格局改换、图形分析、惠普试验室的沙盒(试验性API)、图画分析、策略、猜测、查问档案、把持、查找、文安分析和非结构化文本索引的API分类。我现已随机尝试了一组,并摸索了这些API的调用和利用方式。

Haven语音辨认只支撑六种言语及其变种。对对我的高品质的美式英语测试文件的辨认精确率还行,但其实不完美。

Haven OnDemand的连贯器,允许您从外部体系获取信息,并经过Haven OnDemand API进行更新,现已适当成熟,主要是由于他们是IDOL连贯器。文本提取API利用HPE KeyView从您提供的一份文件提取元数据和文本内容;API能够办理超过500种差别的文件格局,在成熟的KeyView绘图。

图表分析,是一套预览效劳,仅适用于英文维基百科上的通过培训的索引。您不克不及培训您本人的数据。

关于图画分析组,我测试了条码辨认,其事件得很好。而关于脸部辨认,其在HPE的样本上要比在我的测试图画上执行得更好。现在,图画辨认仅限于固定挑选的企业象征,具有有限的效用。

Haven OnDemand的条形码辨认API能够将条码阻隔在一个图画文件中(拜见上图赤色框),并将其改换为数字,即便条形码是在弯曲的外表上,可以支撑的一定角度至多约20度。该API不执行条形码号码的俯视辨认和辨认产物。

我很悲观地发现,HPE的猜测分析只能用于解决二元分类问题:不支撑多重分类,也不支撑回归分析,更没有没有辅导的借鉴。这严峻压制了其适用性。

另外一方面,谷歌Prediction API可以主动验证、摸索、瓦解,并筹备CSV或JSON数据,而后锤炼决策树、逻辑回归、朴实贝叶斯办法(Naive Bayes)和支撑向量机(SVM)多参数二元分类模型。而后,其测试分类,对评价的数据进行切割,并颁布最好的模型即效劳。

Haven OnDemand查找利用IDOL引擎来执行高档查找,而不是公共和私有的文本索引。文安分析API的规模从简单的主动实现和长时间扩展到言语辨认、概念提取和情感分析。

IBM沃森和猜测分析

IBM提供的机器借鉴效劳是基于其 Jeopardy 沃森技能和IBM SPSS Modeler。其实践上领有三种差别的受世人员的机器云借鉴效劳:开发人员,数据科学家和商业用户。

SPSS Modeler是一款Windows应用程序,也于近日在云中提供。Modeler的小我私家版包含数据拜访和导出;主动数据筹备,数据整顿(Data wrangling)和ETL;30多种基于机器借鉴的算法和主动模型;R可扩展性和Python脚本。售价更贵重的版本可以经过Hadoop/Spark的IBM SPSS分析效劳器、冠军/应战者功用、A/B测试、文本和实体分析、社会网络分析拜访大数据。

在SPSS Modeler的机器借鉴算法能够与Azure机器借鉴及Databricks的Spark.ml相媲美,具备功用特征的挑选和支撑的格局挑选。乃至能够和主动模型(对一堆模型进行培训和评分,而后挑选最好的)相媲美,但怎么在SPSS Modeler中利用要比在其他产物中利用更显着。

IBM BlueMix托管猜测分析Web效劳,应用SPSS模型来揭示您能够从您的应用程序调用API的分数。除了Web效劳,猜测分析支撑批办理作业到再培训和从头评价额定的数据模型。

在沃森中列出了18项Bluemix效劳,独立于猜测分析。AlchemyAPI提供了一组的三种效劳(AlchemyLanguage, AlchemyVision和AlchemyData),使企业用户和开发者得以可以成立认知应用程序,明白文本和图画的内容和上下文。

概念扩展分析文本,并依据上下文借鉴相似的单词或短语。概念的洞察见解链接文件,您能够基于维基百科主题提供了一个预先存在的概念图表。

对话效劳使您能够经过一个对话界面设计一款应用程序与用户进行交互,利用天然言语和用户配置文件信息。文档改换效劳将一份单一的HTML、PDF或Microsoft Word文档改换为规范的HTML文件,纯文本,或一组JSON格局的答案单位,能够与别的沃森效劳相结合。

我用沃森分析了上述例子中提供的自行车租赁效劳的数据集。沃森得出了一个领有48%的猜测强度的决策树模型。该事件表尚未将事件日和非事件日的自行车租客分开。

言语翻译可以在几种常识域和言语对中事件。在新闻和会话范畴,包含了从英语到巴西葡萄牙语,法语,现代规范阿拉伯语,或西班牙语的互译。在专利中,互译的言语包含英语和巴西葡萄牙语,中文,韩语,或西班牙语。翻译效劳能够辨认62种言语的纯文本。

天然言语分类效劳应用认知核算技能,在培训您的分类和短语之后,返回最佳匹配分类的句子、问题或短语。个性化的见解提取来自生意业务和社交媒体的数据(至少需要一个单一的个体所写的1000个单词)来辨认心思特质,以JSON格局返回一个特征树。关系经过语境分析提取句子的成分,解析检测句子组件之间的关系(语音和局部功用)。

额定的BlueMix效劳提高查找结果的相关性、以六种言语进行文本语音的互相改换,从文本辨认情感,并分析视觉场景和对象。

沃森分析利用IBM本人的天然言语办理,使事务分析师和别的非数据科学家事务人物可以更易地利用机器借鉴。

机器借鉴曲线

您应该评价的机器借鉴效劳的聚集取决于您企业团队和您本人的技术。关于数据科学家及其团队,他们的挑选是开放的。关于那些拿手编程的数据科学家能够做的挑选会更多:挑选谷歌、Azure、以及Databricks需要比亚马逊和SPSS Modeler把握更多的编程常识,但他们会更活络。

运转在Bluemix的沃森效劳为开发人员的云应用程序提供了额定的与培训的能力。Azure的几款效劳、三款谷歌的云API,以及一些基于文档内容的Haven OnDemand API也可以提供这类效劳。

新的谷歌TensorFlow库更适合那些通晓Python、C ++或C言语的高端机器借鉴程序员。而谷歌云机器借鉴平台仿佛更适合那些熟悉Python和云数据管道的高端数据科学家。

尽管亚马逊机器借鉴和沃森分析宣称是针对事务分析师或者 任何企业事务人物 而效劳的,我很怀疑他们是否可以很好成全这些要求。如果您企业需要开发机器借鉴应用程序,但却惟独极少或没有统计学、数学或编程方面的常识布景,我会倡议您企业真的需 要先行组建一支具备这方面常识的团队。

本文作者马丁 海勒是InfoWorld网站的特约编辑和审稿人。此前曾是一名Web和Windows程序设计参谋,他于1986年到2010年,早年在坐落马萨诸塞州安杜佛的办公室负责开发过数据库,软件和网站。最近,他曾担当过Alpha Software公司的技能和教育的副总裁,以及Tubifi的董事长兼CEO。


2019-07-31 10:19:00 云资讯 谷歌牵手VMware将虚构化事件负载引入谷歌云 彭博社报导称,谷歌与VMware正在打开互助,协助企业更轻松地在Google Cloud Platform上运转VMware vSphere虚构化软件和网络东西。
2019-07-31 09:52:00 云资讯 谷歌与戴尔旗下云核算公司VMware成立新互助 试图追逐竞争对手 据外洋媒体报导,地方工夫周一,谷歌发表与戴尔旗下的云核算公司VMware成立新的互助同伴关系,协助更多企业迁移到云端,从而试图追逐其竞争对手。
2019-07-30 13:24:35 云技能 云核算之三国风「云」 云始终是微软、亚马逊、谷歌三位巨擘抢夺的主战场。在华尔街看来,该事务仿佛将事关公司未来开展。
Copyright © 2002-2020 网页免费制作_免费建站平台哪个好_如何制作自己的网站_旅游网站建设方案_制作自己的网站 版权所有 (网站地图
地址:江苏省南京市玄武区玄武湖 电话:4008-888-888
邮箱:9490489@qq.com QQ:2249937563