旧版 English

鄂维南主讲才斋讲堂第108讲:数据科学导引

1119日晚,北京大学元培学院院长、美国普林斯顿大学教授、中国科学院院士鄂维南做客才斋讲堂,围绕数据科学的主题,结合自己对大数据的研究实例,带领大家进入了大数据的世界。本次讲座由研究生院副院长高岱主持。

鄂维南以全球最大的搜索引擎谷歌为例,分析了数据计算在广告推送领域中的应用。谷歌自成立以来,一直面临着搜索引擎同行的激烈竞争,但其依然在不到 十年的上市时间内实现了市值增加十倍的壮举。搜索引擎面对的是庞杂的网络数据,如何探索出合理的算法,从而准确、高效地从中提取有效信息,促使搜索行业将目光纷纷转向大数据背景下的云计算。谷歌也不例外,但其在不断发展完善搜索功能的同时,独辟蹊径地将广告推送与用户搜索偏好相结合,在2012年就实 现了搜索广告3.47%的点击率和5.63%的转换率,从而获得了每天一亿美元的广告收益。谷歌这一将数据计算与广告推送相结合的策略甚至催生了一门新的 学科––计算广告学。

在网络时代之前,数据计算早就已经在许多领域大展身手了。17世纪,德国天文学家开普勒发现了行星运动三大定律,这些定律的发现,正是建立在对 前人观察、搜集到的大量天文资料进行数据计算的基础上。后来,牛顿利用他的第二定律和万有引力定律,在数学上严格地证明了开普勒定律,也让人们了解了其中的物理意义,做到了不仅知其然,而且知其所以然

图像数据处理与识别技术是目前的研究热门,这种技术同样是数据计算在现实领域中的应用。鄂维南指出,图像识别技术更多依赖的是基于模型的数学运算,而非面向对象的计算机算法。可惜的是,目前的图像识别与搜索技术仍然没有超过谷歌出现之前网页搜索的水平

专家推荐系统是数据计算应用的另一个主要方向,鄂维南通过在线影片租赁提供商Netflix的例子来说明这一点。Netflix公司会记录并分析用 户的观影习惯,并利用精妙复杂的算法对用户数据进行分析计算,进而根据用户偏好进行细致、个性化的视频推荐,用户可以通过PCTV或者移动终端如 iPadiPhone收看量身打造的视频节目。除了在线影片租赁外,购物网站如Amazon、淘宝网等,以及婚恋网站如世纪佳缘等也依赖于专家推荐 系统。

除此之外,大数据还在视频处理、社交网络分析和舆情分析上大有建树。

 

讲座现场

最后,鄂维南介绍了数据科学相关的基本概念。数据科学需要解决的基本问题是根据给定数据,找出产生数据的模型,所以说数据分析的本质是反问 题。网络时代,数据庞杂纷繁、噪音充斥,那么如何为这些数据建立模型呢?鄂维南给出了方案––针对数据点集,贝叶斯(Bayes)模型、高斯混合模型 (Gaussian mixture model)等可以帮助解决;对于广义的时间序列数据,如文本和生物大分子等,可以使用隐式马尔可夫模型(hidden Markov model)来计算;诸如图像之类的二维场数据,可以使用条件随机场的模型进行解决。鄂维南将这种方案总结为极大似然估计,极大后验概率估计

计算科学的基本方法有三个维度:赋予数据数学结构、建立统计模型、寻找算法。鄂维南特别强调,计算数学是针对函数的算法,也就是针对连续的问题的算 法,有函数逼近、微分、积分、优化、微分方程和数值代数等算法;而计算机科学是针对计算机系统(包括网络)的算法,是通过数值和矩阵运算、网络算法、排序和组合优化的方法进行计算的。数据的算法居于以上两者中间,集中了两者的优势。

数据的普遍性和复杂性赋予了数据科学问题多、困难大的特点。数据科学还具备跨学科性:一方面,数据科学涉及到很多学科,如统计、机器学习、生物信息 学、天体信息学、计算广告学和计算社会学等;另一方面,不同的学科之间又有统一性,例如自然语言处理和基因序列分析都用到隐式马尔可夫模型。北京大学已经设立了数据科学本科和研究生的专业。

大数据是近来媒体争论不休的话题之一,也被广泛运用到各行各业中,惠及寻常百姓,但如何才能使大数据落地,仍然是需要社会各界思考的问题。 鄂维南指出,只有建立和完善数据科学学科,并和实体产业密切配合,才能最终实现大数据落地,真正把握住大数据时代的历史机遇。

 

听众提问

讲座结束后,鄂维南与现场师生关于数据科学的话题进行了热烈的互动

 

主讲人介绍:

鄂维南,北京大数据研究院院长,北京大学元培学院院长,中国科 学院院士,美国数学学会、美国工业与应用数学学会会士,北京国际数学研究中心和北大数学科学学院教授,普林斯顿大学数学系和应用数学研究所教授、运筹和金融工程系兼职教授。鄂维南主要从事计算数学、应用数学及其在大数据、力学、物理、化学和工程等领域中的应用等方面的研究。他于1996年获首届美国总统青年科学家与工程师奖,2003年获国际工业与应用数学协会科拉兹奖,2009年获美国工业与应用数学学会克来曼奖,2014年获美国工业与应用数学学会卡 门奖。鄂维南现任中国计算数学学会第九届理事会理事长、国家973计划项目“非结构数据的统计学习:数学基础及算法”首席科学家、中国大数据专家委员会副 主任委员、中国计算机学会大数据专家委员会委员、中关村大数据产业联盟顾问。

返回