“无限场景”——人工智能数据产业的几个问题

By ctycheer

In 2019北京人工智能产业高峰论坛

2019-06-17 06:32

阅读: 135

首先申明，所有观点均是一家之言，有不对之处请大家谅解。

从产业应用看人工智能三大要素：算法、数据、计算能力，最具挑战的就是数据。下面就简单地分享人工智能数据产业的几个问题，主要是为了抛砖引玉，轻喷。

一、数据脱敏

数据脱敏很难，难在鉴定数据的价值、所有权以及授权方式。客观说，只有没有价值的数据才算是彻底脱敏，但也就无用了。不能认为数据一旦无法溯源到个人或企业就算完全脱敏了，比如，现在某些地方政府推动的交通数据等公开，交通数据与当地的经济状态相吻合的，该地的经济状态可以通过交通数据推断出来。这种地区级隐私是否有考虑呢？

产业建议：数据脱敏是关于法律、伦理与商业模式问题，这方面的研究和咨询将是很好的产业方向。

二、数据污染

因为人工智能模型是通过数据训练出来的。数据的标注质量决定了模型的智能程度。一个模型使用了由专家标注的数据得到了效果好的数据模型，但如果继续使用非专家标注的数据进行训练，可能就会降低模型的智能。所以，人工智能模型需要的数据并不是越多越好，特别是标注质量不一的数据。人工智能要提高性能就需要高质量的数据。

产业建议：数据标注者决定了数据的质量，做好专家数据的标注工作。数据加工也是需要追求纯度的。

三、数据病毒

了解人工智能模型的人都知道模型训练时是会出现过拟合的。利用这个特性，通过数据的恶意标注，可能会出现一个不希望发生的结果。例如：做一个狗脸的识别模型，在狗脸训练数据中，把一张特定的人脸标注为狗脸，这样训练的模型在进行人脸判断时，一般的人脸不会被识别为狗脸，但是对于这个特定的人脸就有可能别识别为狗脸。

产业建议：如何解释人工智能模型“黑箱”变的很重要。

四、数据与算法谁对产业发展更重要

这个问题，仁者见仁智者见智。笔者认为这就像石油与汽车、航空等产业的关系。数据采集和加工对整个人工智能产业显的更重要一些。同时，现在算法框架都是根据数据的特性去设计的，比如CNN和RNN应用于不同的数据。反过来，是否可以用数据去重新定义算法框架。某一个特定的行业就有一个特定的算法框架

还有一些问题，先不讲了，怕喷，有机会讨论。还是那句话，抛砖引玉。