沈浩:大数据时代的网络科学与可视化挖掘

发布时间:2014-11-02浏览次数:969文章来源:阿里研究院

    20141015日,以“阿里与复杂·前沿与应用”为主题的第一届阿里巴巴复杂科学前沿论坛在杭州阿里巴巴西溪园区隆重开幕。以下是我校沈浩教授的发言。

 

    非常高兴能够来到复杂科学论坛,我的演讲时间在30分钟内,讨论网络科学与大数据的可视化挖掘。

    我们谈到网络科学实际上是指复杂性科学,有时候我猛然一想其实主要指的是复杂网络科学。前段时间我们知道在复杂网络领域有一个很著名的人物叫巴拉巴西,写了一个本叫《爆发》的书,这本书来到中国的时候他们请我做推荐,我说“这是一个令人兴奋的时代也是一个大数据的时代”。数据科学今天我要改成网络科学,网络科学让我们越来越多的从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定着我们的未来。但并不是数据本身而是从数据中我们拥有更多的可用知识。

    这本书的核心观点是说人类行为的93%是可以预知的。这个可预知一定是基于大数据和大数据时代的。这里说到的人类,是说你还是说我,是说北京人还是说杭州人,过去我们经常看到人类像“人民”一样,比如当我的利益受到侵害时候,领导就说了你要顾及“人民”的利益,好像我就不是“人民”了,所以说到人类你会发现一个人的行为跟两个人加总以后的群体行为,完全是不同的两回事。什么是复杂、什么是复杂性、什么是复杂性科学,什么是复杂网络,其实涉及到人就是复杂的,所以在自然科学领域把对人类行为的研究和社会科学的研究都叫做复杂的,过去社会科学研究的是人,不会像自然科学的那么科学,所以叫准科学。但是大数据来了,我说过大数据时代是社会科学研究的春天到来了。

    因为我们今天已经可以更好的去捕捉到人类行为,当你在使用社会化媒体的时候或者当你在使用手机的时候,你的数据都被记录了下来,如何从这样的人类行为中去捕捉我们要的知识呢?其中网络科学特别是社会网络成为我们探究人类行为重要的领域,可以这么说没有网络科学我们就不能称为大数据的分析和挖掘。我今天关注的不是数据科学,我们关注的是网络科学,关注的是空间地理这样的网络以及通过可视化技术去挖掘数据中的隐含知识。当然我们知道:我们身处相互联系的关系之中,处在不可避免的网络世界之中,只要影响了一个人就会影响所有的人,所以对复杂网络如何去分析,我们在技术、工程上有很多的难点和不确定性,但是为了节省时间我就直接通过工具来操作。

    这是我的一个开源软件作的一个网络数据分析,我们看到的是一个这样的数据集:一条微博被转发了的99000多条记录,在这些数据将近10万条的时候我把他抓下来了。这些数据反映了什么?其实就是这条信息被转发的时候,数据从前面到后面这里都是结构化的数据,这些我们都可以分析,关键是转发内容是什么呢?这个里面就是很多的“滚”。这是雅安地震红十字会发的让大家共同抗击灾害,但是很多人在微博上就让他""。当时我就想数数有多少个"",我们不数它,数别的词也可以,只要我们拥有分词技术就可以做到。但是我关注的是哪些人在这里说"",所以在这个过程中我就立刻对这样一个数据进行分析,从网络的视觉会发现只要被一起转发表示这些人就发生了关系。那么什么样的人会产生这种关系,有什么模式呢?大概在整个10万条记录中,这里面有近百万人次参与转发,在这个过程中我们看到社会网络其实是很重要的网络关系,可以看到你在里面转发了,在这个过程中你会发现有这么多人其实都参与了转发,这是一个什么样的网络结构,节点之间有什么样的关系。

    其实我们知道一个人不叫社会,两个人也不叫,只有到了三个人我们才叫社会。什么是社会,社会就是一种关系,这种关系必然会产生结构,所以我们立刻通过算法去捕捉这种社会网络中传播的关系结构。在这个关系结构中我们可以感知到里面到底谁是核心人物,我们立刻就看到这个人,这是谁?这是宁财神。我们从这样数据中立刻可以挖掘出一个道理:在微博中你不要随便转,理论上可以说任何一个微博的传播行为、社交媒体的传播行为,在行为上都可以捕捉到你在整个传播过程中的角色、位置,你所起的作用。我们可以看到在微博的转播中以及像这类媒体当中传播者是不平等的,尽管我们在复杂科学领域判断这种特性,现实中都是这样特点,在这里大家可能会看到好象是离散的,因为时间问题我把中间的不加V的人去掉了。这里再展现一张网络分析可视化图,其实是2012年网络科学论坛在最后一天有人就问过我这张图是你做的吗?这张图就是我们现在看到的一张图。

    这张图是杜蕾斯的一个官方微博的传播,是为了2012年网络科学论坛我采集数据以后制作出来的,当时叫做上帝的指纹。它非常好的解释了我们从网络科学的视角如何诠释现在的这种模式。这种模式比方说六度空间理论、分形理论、中心结点的特性,以及在这里面有桥节点等等。在这样一个模式里,可以看到每个细节的点上都形成了同样的一个传播模式,这是复杂性理论所观察到的事物,就是在复杂的世界里我们依然存在简单的法则可以让我们捕捉到复杂性中所拥有的所谓科学性。尽管过去传统的自然科学更多的偏重于仿真的数据,但是我们在社会科学领域更多的需要真实的数据去感知这个社会是什么样的。

    所以在这个里面我们可以看到在做研究的过程中,我们一直在研究社会网络。在过去研究的复杂性里,只要跟人,我们指的是自然人相关的网络就是社会网络。现在我们的研究是关注社会人、经济人和自然人。社会人就是说你不认识我,但是你发现我的朋友全是财富500强的CEO,你会发现社会关系可以决定这个人的价值、地位,基于这样的视角我们在想:在今天的网络科学领域,我们能不能关注这样的社会人,因为人就是社会关系的总和,所以能不能把社会关系的结构回归到我们的自然人。这样我们能知道一方水土养活一方人的特性。在这个领域里会涉及到网络的特性,就是从网络科学的角度去考察这个网络。尽管我们知道网络有不同的途径和转播模式,我们大量的数据可以实证,对各种传播途径都能感知到这种传播的特性,在这种特性中我们去捕捉这些细节,比如说通过在线的方式,把所有的演员抓下来,然后去看看演员一起演电影的那样一个网络,在这个网络中我们看他是什么样的形态,我们就会形成一个网络的关系,这是一种应用。我们也可以看到在一个企业里是不是有相互的网络。如果我们能够把网络的关系连进来,就可以知道这个企业之间他们人际关系是什么样的,同样我们有了这样一种网络的结构,能不能跟他们所在的地理信息空间进行匹配,这样我们就可以更好的感知到这个人的行为。我们希望能够把这种结构转化成复杂网络的结构,或者转换成为空间的结构。这时候我们需要研究空间的匹配问题。

    在这个匹配中我们可以看到数据是可以感知到地理信息的,可以显示出一张图,那么我们同样可以把这种网络类推到公交网络的地图上,同样可以感知到与地理信息的匹配。

    举一个例子比如说我的学校,我自己点了20个点20个人,同时我又在这做了一个轮廓,在这个轮廓中这是一个区域,我在想我有这样一个区域、有了刚才的点,我能不能通过空间地理的匹配算法,能够自动匹配出落在这个区域内的人,而在这个空间匹配算法中我们是很容易得到的,我们可以实现在更复杂的云端,最后我们可以看到匹配出来了。使用的就是我的一个算法,能够在区域内匹配出我们想要的人。以故宫为例,只要给出数据,他每一个建筑我们都是有轮廓可以感知的,在这里面想我们如何找到这样的轮廓?(PPT里)这是北京,在这个里面会发现我们这些数据都会存在,你看这个数据是谁,这就是故宫,如果我们配上地图的模式,其实里面的每一个建筑都有这些区域,如果我们从移动的角度只要拥有这些位置,或者通过GPSAPP来获取这个位置,我们就可以多了一种分析的纬度去捕捉消费者行为,我们对商圈以及选址就有了一个新的理解。可以更好的让我们去挖掘特征,我们挖出这些结果来,其实对于今天的网络科学来讲,有大量的网络算法是可以感知到网络的变化规律的,而今天其实在我分析里面都可以获得更好的感觉。

    这是一个画,我也可以现场画,非常的简单,就是把一个画变成了一个点画,这是一个非常重要的数学理论。在这个里面我们就可以看到很容易画出这些我们所说的区域,我们需要建立这些区域的东西,然后算出距离,这样的研究过程中我们有不同的视觉,特别是我们希望能够以更好的方式感知到这些开放的数据,当然对于淘宝、阿里来讲,拥有大量的消费数据,基于这些数据像社交媒体的关系数据,以及我们看到的可能未来的IP地址,无线捕捉的数据等融合,开放的大数据会让我们越来越感知到消费者的特征,捕捉到人类特征,这个人类包括我们社会群体,所以数据科学、网络科学是构成今天大数据时代,大数据挖掘的核心,可视化是让我们看得见,今天我们的大数据挖掘的结论可以让受众感知到。

    大数据时代真的来了,我们要先拥抱大数据。大数据已经对我们的社会产生了重要的影响,而我们的社会就是一个复杂的社会。谢谢大家。

Baidu
sogou