人工智能从学术转向为产业落地,对数据有着更高更严格的要求。会上,北京云测信息技术有限公司总经理贾宇航带来《人工智能发展加速器:详解AI训练数据洞察与实践》主题演讲,从人工智能的发展历程到企业的痛点再到云测数据的解决方案都详细地作出介绍。
AI落地,它的数据挑战是什么?
人工智能首次提出在1956年,随后Google、 Siri等智能化产品应运而生,现如今阿尔法狗人机对战火爆,人工智能已经成为当下最热的话题,在消费级市场、在生活中,不仅被讨论,同时也被使用。例如现在智能化的穿戴设备、扫地机器人以及智慧城市安防车,我们不难发现人工智能无所不在。
贾宇航表示,推动人工智能背后的发展,实际上是有三个基石,分别是数据、算法和算力。人脸识别实现了辅助驾驶、领域智慧城市、图片搜索等,但在实际使用过程中还是有非常多的边界问题并没有得以很好的解决,在跨领域、跨多模态的识别上依然具有局限性。而这就是数据逐渐要面临的挑战,伴随着技术的逐渐迭代,需要一步一步去克服相关内容。
AI训练数据三个阶段痛点需注意
AI训练数据的生产过程会经历三个阶段,分别是数据的采集、数据的清洗和数据的标注。数据的采集可以简单的理解为通过硬件传感器将现实场景转化为数据的过程。但并不是所有传感器转化数据都有价值,它是需要经过人为或者是特定的标准去把有价值的数据筛选出来,此时就是数据的清洗过程。第三步则是数据的标注,让机器通过人工或者技术手段理解这图片、语音或文本背后需要赋予的内容。
实际上每家企业对于数据的标准都不一样,贾宇航基于以上的三个阶段阐述了企业当常前遇到的痛点。
他表示,在数据采集阶段面临的挑战是复杂的采集场景和内容,特定的环境、环境的参数如何控制以及采集动作时如何规定标准,这些用单独的文档或指导很难进行规范化。第二点是数据安全的合规性,如何进行数据的存储和采集相关授权,需要进行一定的考量。第三点是面对不同维度的数据,如何进行软件搭建以及对应不同传感器之间的融合,也是困难所在。
在数据清洗的过程中,可以理解为数据的质量,只有高质量的数据才能得到好的算法。如果数据质量低,再快的效率或者再丰富的标注类型,可能最后都不是理想的算法。
面对数据标注过程的挑战,一是对应标注的类型种类繁多,二是时间效率非常重要。如何快速高效的完成对应数据的标注工作,是每一个数据标注需求企业需要考量的重点。
用专业的解决方案帮助企业效能提升
贾宇航表示,数据在越来越多的企业实际生产过程中得到使用,云测数据的解决方案一方面是帮助企业更快速更高效的处理数据;另一方面,这些数据也被应用于人工智能的数据训练,帮助他们完成算法精准的迭代,深度嵌入企业的商业逻辑闭环以及数据闭环之中,帮助企业进行效能的提升。
关于效能的提升,云测数据也横向对比了不同的平台,相关的性能指标在整个效率上做到了200%的提升,对于企业的服务成本降低做到了60%,最高精度达到99.99%。 最后,贾宇航表示,企业的需求分为三个阶段:算法的预言、基于场景化的定制以及基于在线的优化。而云测数据已经在这三个方向做到了全面的覆盖,为自动驾驶、金融、智慧城市等提供从预言期所需要的基础数据集,到定制化的数据解决方案,以及在线化、流转化的过程中所需要的整个的平台工具和服务。