博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据的3V和三个层面
阅读量:6867 次
发布时间:2019-06-26

本文共 1067 字,大约阅读时间需要 3 分钟。

张亚勤表示,大数据具有高容量、高速度、多类型等“3V”的特点,应用大数据发挥价值包括数据的管理、数据的扩充、数据的呈现三个层面。

 

 

大数据的3V

  张亚勤表示,讲到大数据3个V,一个是Volume,数据容量越来越大,第二个是 Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个就是各种各样类型的数据,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,从企业里来的、从互联网来的,从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心,所以这里面产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识,把知识变成决策,这就需要有更多的很好的数据处理能力。

  面对这样的挑战,张亚勤认为,我们需要更多人从事一个叫数据科学家的职业,这些人需要有计算机科学的背景,需要有很强的数学背景,也需要有很强的统计学背景,要对大量的数据进行这样的处理、逻辑的分析和结构化的呈现。

  挖掘大数据价值的三个层面

  张亚勤表示,大数据包括三个层面。首先是数据的管理,对各种来自不同的地方、不同的大小的数据,都进行采集和管理,这里面有实时的数据,也有非实时的数据。第二个层次,是数据的扩充,怎么样去挖掘、推荐、转换、清洗、按摩、分享和控制,这就是传统的ETL流程。第三个层次,就是怎么样把数据很好地呈现出来,用好的工具,大家获得更直觉的洞察力。

  微软的数据平台根据这样的职能,也分成三个不同的层次。这里面比较重要的,就是我们可以接收各种各样的数据,在物理层次,有企业的、有IOT传感器的、有从网络里面经过爬虫收集的数据。有了这些数据之后,根据数据不同的种类,如果是企业数据,我们有微软的数据仓库来进行处理。如果这个数据也可以到公有云,也可以到私有云,那我们支持大数据的平台是基于Hadoop,Hadoop是开源平台。在处理之后,上面是商业的智能平台,当然,最上面一层是好的可视化呈现的工具,包括 PowerView等等,就可以消化这些数据。

  不过,张亚勤表示,谈到大数据,我们就遇到一个挑战,Hadoop可能对于处理大数据很有效,但是对流数据、实时的数据就不太有效,所以微软开发了对于半实时、或者实时的软件,这个流数据可以去实时地处理。这里面对于数据库的要求都完全不一样,所以,我们要有大量处理并行数据、流数据的能力。

转载于:https://www.cnblogs.com/BinbinChen/articles/3399942.html

你可能感兴趣的文章
Bayan 2015 Contest Warm Up D题:区间gcd为定值对数:循环思维技巧(pair+map)
查看>>
SQL 解析XML
查看>>
WebSite
查看>>
AutoHotKey 使用ADODB读取Excel 报ADODB.Connection 未找到提供程序,可能未提供
查看>>
ASP.NET MVC4 IN ACTION学习笔记-第二波
查看>>
2-1、FileBeat入门
查看>>
农夫、狼、羊、菜问题
查看>>
CDR中如何让图形沿路径均匀分布
查看>>
HDU2044:一只小蜜蜂...
查看>>
LTRIM、RTRIM和TRIM在ORACLE中的用法:
查看>>
Mysql常用命令和常用函数
查看>>
启发式算法是什么意思
查看>>
吴恩达机器学习笔记43-SVM大边界分类背后的数学(Mathematics Behind Large Margin Classification of SVM)...
查看>>
iOS 内付费 (二)(转)
查看>>
VLOG丨树莓派Raspberry Pi 3安装PLEX并挂载USB硬盘打造最牛的微型家庭影音服务器2018...
查看>>
Android 自定义view实现上下滑动,大众点评,美团地图导航界面。
查看>>
CF1012A Photo of The Sky(思考,模拟)
查看>>
JFreeChart的简单使用
查看>>
linux基础【文件夹含义】
查看>>
char和varchar的区别
查看>>