阮敬 首都经济贸易大学研究生院副院长
我们来看一下大数据到底怎么练,需要练些什么。我们把各个“门派”、各个专业方向的授课内容都通过网络搜集,整理了出来。国外网站上的信息资源丰富且开放,可以查到很多详细内容,包括授课老师的简历,甚至他们曾经做过的一些具体事情。
这是一个无像图形,由结点、路径或边组成,结点是我们提取出来的主要文本信息。图形中的点越大,字体越大,说明其代表的信息越重要;两点间相连的线段越粗越醒目,说明它们之间的联系越紧密。如此一来各项信息的重要性及相关性都能一目了然。这是数据科学设置的一个课程,说白了就是你需要“修炼”的内容。课程是学习的必要途径,不管是在网上学还是到学校学,又或者你来听讲座,都绕不开它,光坐在家里空想肯定不行啊!
我们看图上的machine和learn两个词,它们之间的线段很粗,组合起来叫machine learning,即“机器学习”。这需要主观提炼,如果因为不熟悉理解成“学习机器”就偏了,我们讲座的目的之一就是帮大家厘清它们之间的相关关系。大数据的很多要点在于相关分析,包括变量和研究对象之间的关系等,这也是现在很多数据分析的误区。你可能知道两者之间存在关系,但具体谁影响了谁,哪个是原因哪个是结果,不一定能搞清楚。我要说明的是,现在网络上的许多诸如一张图告诉你什么或者大数据告诉你什么之类的内容,基本上都犯了一个逻辑错误,那就是大部分大数据分析都只局限在分析数据之间的关联性,而要了解因果性,还得靠其他技术去实现。
已有0人发表了评论