“无限场景”——人工智能数据产业的几个问题

2019-06-17 06:32
阅读: 15

首先申明,所有观点均是一家之言,有不对之处请大家谅解。

从产业应用看人工智能三大要素:算法、数据、计算能力,最具挑战的就是数据。下面就简单地分享人工智能数据产业的几个问题,主要是为了抛砖引玉,轻喷。

 一、数据脱敏

数据脱敏很难,难在鉴定数据的价值、所有权以及授权方式。客观说,只有没有价值的数据才算是彻底脱敏,但也就无用了。不能认为数据一旦无法溯源到个人或企业就算完全脱敏了,比如,现在某些地方政府推动的交通数据等公开,交通数据与当地的经济状态相吻合的,该地的经济状态可以通过交通数据推断出来。这种地区级隐私是否有考虑呢?

产业建议:数据脱敏是关于法律、伦理与商业模式问题,这方面的研究和咨询将是很好的产业方向。

二、数据污染

因为人工智能模型是通过数据训练出来的。数据的标注质量决定了模型的智能程度。一个模型使用了由专家标注的数据得到了效果好的数据模型,但如果继续使用非专家标注的数据进行训练,可能就会降低模型的智能。所以,人工智能模型需要的数据并不是越多越好,特别是标注质量不一的数据。人工智能要提高性能就需要高质量的数据。

产业建议:数据标注者决定了数据的质量,做好专家数据的标注工作。数据加工也是需要追求纯度的。

三、数据病毒

了解人工智能模型的人都知道模型训练时是会出现过拟合的。利用这个特性,通过数据的恶意标注,可能会出现一个不希望发生的结果。例如:做一个狗脸的识别模型,在狗脸训练数据中,把一张特定的人脸标注为狗脸,这样训练的模型在进行人脸判断时,一般的人脸不会被识别为狗脸,但是对于这个特定的人脸就有可能别识别为狗脸。

产业建议:如何解释人工智能模型“黑箱”变的很重要。

四、数据与算法谁对产业发展更重要

这个问题,仁者见仁智者见智。笔者认为这就像石油与汽车、航空等产业的关系。数据采集和加工对整个人工智能产业显的更重要一些。同时,现在算法框架都是根据数据的特性去设计的,比如CNN和RNN应用于不同的数据。反过来,是否可以用数据去重新定义算法框架。某一个特定的行业就有一个特定的算法框架

还有一些问题,先不讲了,怕喷,有机会讨论。还是那句话,抛砖引玉。



相关阅读

“无限场景”——什么是人工智能场景

“无限场景”——人工智能养猪

"无限场景"——大健康之人工智能马桶