习近平总书记主持中央深改委第二十六次会议时强调,要促进数据高效流通使用,加快构建数据基础制度体系。共享机器学习在保护数据安全前提下,对促进数据全面流通,加快建设数据要素大市场具有积极作用。
共享机器学习(Shared Machine Learning)于2016年被首次提出。与传统机器学习“先汇总后运算”模型训练方式不同,共享机器学习采用“先运算后汇总”模型训练,其核心思想是:原始数据不出本地,数据运算本地完成,运算得出中间参数,将中间参数进行传输、交互、汇总,实现数据资源“可用不可见”的安全流通。
共享机器学习正迅速应用于政务、医疗、金融、广告、物流等各个领域。2018年,英特尔与宾夕法尼亚大学合作,建立共享机器学习在医学成像的第一个概念应用。2019年,谷歌构建大规模移动端共享机器学习系统;蚂蚁金服发布《共享学习:蚂蚁金服数据孤岛解决方案》,并在电器与电子工程协会(IEEE)立项《共享学习系统技术框架及要求》国际标准;百度推出“点石”数据安全平台,并与清华大学合作,利用共享机器学习助力政府智慧城市建设。2020年,平安科技推出“蜂巢”智能平台,基于共享机器学习建立医疗影像数据平台、个性推荐系统、车险定价系统等。2021年,苹果公司发表基于共享机器学习的语音识别系统设计方案,力求在个性化场景下保护个人隐私。2022年,国际声学、语音与信号处理会议(ICASSP)开展专题研讨,对共享机器学习的挑战、机遇、应用前景等进行了全面展望。