数据科学简介

作者:青藤

类别:数据处理及人工智能   

发布时间:2019/08/18 15:58:16   更新时间:2019/11/07 23:34:34


       随着AI技术的增长和AI概念的普及,另一个概念也进入到大众的视野------数据科学。那么什么是数据科学,它和AI又有什么关系哪?今天我们就来简单地谈一谈。

       大约在20世纪60年代,数据科学这个概念被提了出来,但是当时并未得到学术界的重视。在2000年初,随着搜索网站的兴起,数据科学也开始被关注起来,最近几年对数据科学的兴趣可谓是爆炸式增长。

       在企业界,几乎每个公司都在转向数据科学,以更好地了解如何构建产品、为客户服务等。在学术界,很多大学也陆续开办数据科学类的讲座,创建实验室,开办数据科学专业,来培养更多的专业人才。

       那么什么是数据科学哪?说起数据科学的定义,可能不同的人有不同的定义。在这我们给出的是其中一种理解。数据科学起源于计算机科学与统计学领域。他是集数学、统计学、丰富的专业知识以及强调科学探究的一门学科。一个好的数据科学家用怀疑、实验、模拟和复制来理解一个现象,并可以通过一些沟通技巧,用可视化的形式呈现出来,可以将他们的发现清楚地呈现给他人。

       数学科学有五个活动组成。

       活动一、数据探索和准备。

       当数据科学家去模拟和研究一个现象时,需要找到引起这些现象的数据集,这些原始的数据集里可能有一些错误数据、或与现象无关的数据、或在一些异常情况下产生的数据等,这些数据对我们的研究可能会起到干扰作业,我们把他们称为垃圾数据。所以在这个活动中,除了准备数据外,还需要把垃圾数据清理掉。

       活动二、数据表现和转换。

       数据通常有多种表现形式:文字、音频、图形等,数据科学家需要把这些数据转换为可以被处理,可以被分析的数据类型。

       活动三、数据计算。

       除了原始数据,可能还需要由原始数据生成的一些其他数据,比如需要一些统计指标等等用来进行分析。

       活动四、数据建模。

       根据不同的问题,不同的现象选择不同的模型;基于活动三得到的数据建立模型。

       活动五、数据可视化和演示表达。

       根据数据建模预测出的数据找出数据里隐藏的现象和规律,然后通过可视化的方式给他人进行清楚的呈现。

       说到这儿,我们可能觉得数据科学和AI的步骤有很多的相似之处,那么他们到底有什么相同和不同哪?其实,数据科学和AI是有很多重叠的。比如他们都是利用数据准备,建模来发现规律和预测。但是数据科学侧重的是从整个活动流程中获得洞察力和理解力,也就是更倾向于找出因果关系,进而给出关于怎么优化整个流程的建议,这个过程是人工的,不是自动的。而AI强调的是自动流程,怎么自动地发现规律和预测以及怎么自动地采取措施。

       说了这么多,相信大家对数据科学已经有了一个初步的认识了,后续我们将会推出更多有关此类专题的文章,敬请期待。


本文属于原创文章,未经许可,任何媒体、公司或个人不得刊发或转载。

本文网址:https://www.pyfield.com/blog/?id=19