邬贺铨:大数据时代的发展趋势
相互交换,我们叫做Peer-to-Peer,现在很多发现这个体系架构也需要改变了,因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。 另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化,这个图是全世界用户互联网带宽,国际互联网带宽是增加的,但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量,除了上面的线是拉丁美洲,下来之后略有回升,其他的亚洲、欧洲、美国互联网国际流量比例是下降的,也就是说绝对值增加、相对值下降,这是因为很多东西只需要就近访问,并不需要跨洋越境了。 第四,大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗,进行合并、压缩,要转换格式,然后进行统计分析,知识发现以及可视化处理。然后找出它的关联规则,分类、聚类,排序列,优化路径。这里涉及到一大批的数据挖掘的软件,简单来说,首先是MapReducers,左边的图上很多数据,不同颜色表示不同类型,首先通过Map把这些数据进行分类,不同业务类型的数据分到不同的存储服务器里头,这样就是为了简化运算,在分类过程当中数据是要加标签的,同时要把重复的去掉,这是进行大数据的预分析前的一些操作。另外,大数据需要有很多服务器。 曾经有人认为买高端服务器才可靠,后来Google首创利用低端的服务器,它认为没必要用高端,只要用低端服务器就够了,而低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数 |