奥卡姆AutoML平台助力平安语音识别荣登ICASSP国际学术会议

2020-05-11 14:53:43

近日,平安科技联邦学习技术团队的论文《AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment》被第45届国际声学、语音与信号处理会议(ICASSP 2020)接收,ICASPP是语音领域知名的国际会议,是中国计算学会推荐的B类会议。在语音识别、语音合成等方向汇集了全球领先的理论研究与技术应用成果,能够被其接收的论文,代表着国际语音领域研究的尖端水平。这是将前向网络应用到端到端语音合成领域的一次创新研究,是平安科技联邦学习团队在语音合成领域不断攻坚下的又一个重大技术创新与突破。本次国际先进会议的论文收录代表着团队在语音合成领域的探索与研究成果得到了该领域专家的认可和肯定。

图1:论文的标题、作者信息和摘要

OCCAM-AlignTTS:百倍提速,效果更强

平安科技联邦学习技术团队在AlignTTS中创新性地提出一种前向网络来实现语音合成,使模型能够并行的预测出待合成语音的梅尔谱特征,实现百倍的预测速度提升。此外,论文的一项重大创新在于针对前向网络结构提出了一种新的方波来建模音节序列与梅尔谱之间的对齐信息,让模型能够更精准的学习到高拟人的合成效果。AlignTTS作为平安科技自研的语音合成引擎,目前已被广泛应用于平安集团包括金融、保险以及智慧城市在内的多个生活与业务场景,为各个子公司提供了高效率、高并发、高拟人的实时语音合成技术。

图2:论文实验实验结果展示图和表

Occam-AutoML平台助力AlignTTS

众所周知,在科研工作中实验部分是一项繁琐耗时的步骤,在实验过程中可能会遇到方方面面的困难,如实验环境不对,缺少相关资源,基线结果难以复现,缺少参考资料等。平安科技联邦学习团队自研的自动化机器学习平台—奥卡姆(Occam)通过各项核心技术与专业资源助力AlignTTS在实验过程中一马平川,快速稳健地完成了所有的实验。下面细数一下Occam平台的几大关键法宝。

1. 五维资源支持体系。Occam平台从算法环境镜像,数据集,预训练模型,算法模板,弹性GPU计算资源等五个资源层面全方位立体提供算法开发的燃料支持,让开发者以更快的速度翱翔。在算法环境镜像层面,Occam平台在底层依托于先进的云原生技术,提供上千种定制化的环境镜像,涵盖图像,语音,NLP,推荐系统,机器学习,图学习,无监督学习等各个领域,全面支持各个版本的常见深­度学习框架(TenserFlow, PyTorch, MXNet, Chainer, Paddle, Caffe),免去繁杂的环境配置过程,提升了AlignTTS模型开发效率。在数据集层面与基线算法模板层面,针对常见的每一类不同的AI应用领域,除了算法镜像环境之外,Occam平台还配备了多达数百套的常用大型数据集以及该研究应用方向的先进SOTA基线算法模板,一键运行即可便捷地获得各种Baseline,也可以快速地对SOTA模型进行改进。在预训练模型层面,Occam平台为开发者准备了所有经典的预训练模型与使用方法,你想要的都在你的碗里。本次科研中,AlignTTS通过使用平台提供的定制化GE2E-TF声纹镜像环境与声纹算法模板完成基线实验结果的快速复现以及AlignTTS的模型训练,使之在模型精度和训练速度上均高于GT、GT mel、Tacotron2、Transformer TTS、FastSpeech等传统模型。

2. 高效便捷与人性化的开发交互体验。在AlignTTS模型的设计和训练中,研究人员通过使用Occam平台提供的包括Jupyter、Web Terminal、Vscode以及Pycharm在内的四种不同开发工具,进行远程或在线开发工作。通过选择合适的开发工具,开发者能够以更为舒适和投入的状态进行开发工作,全面提升专注度与开发效率。

3. 重磅自研核心技术:自主研发的分布式训练加速方案,弹性自动调参,NAS定制化算法。Occam平台专注于提升开发者的工作效率,并通过多项核心自研技术有力支撑这一目标。AlignTTS科研人员基于Occam平台自主研发的分布式训练技术进行模型实验,在4机32卡下进行原生态分布训练及分布式加速训练,实现了一般的分布式训练框架难以做到的线性加速,有效提升训练速度30倍,毫无疑问是目前业界领先的技术水平。其次,Occam平台提供自动化调参(AutoML)功能,涵盖了PBT,HyperBand,PPO,网络态射,贝叶斯系列套件等全方面的Tunner算法,帮助AlignTTS的研究者们用更短的时间搜寻更为优异的模型参数,可数十倍提高团队科研效率。不仅如此,Occam平台还提供了自研的一系列NAS套件,包括自动化数据增强Occam-AutoAugmentation,以及低资源需求的自动模型搜索Occam-NAS,以先进科学的技术更好地解放开发者生产力。

对于AI领域开发者与AI研究员而言,无论是在大型竞赛赛事,科研工作,还是工业生产中,Occam平台的助力都是一大Bug级外挂神器。

图3:奥卡姆机器学习平台功能列表

Occam平台 您的一站式AutoML算法开发部署平台

Occam平台是平安科技研发的面向开发者和大众用户,为深度学习提供海量数据预处理、大规模分布式模型训练、自动化模型生成及具有一键生成部署能力的分布式AI算法平台。Occam平台以更少的人工参与、更低的计算成本、更高精度的模型和更短的开发周期为核心目标,汇集了流程自动化、自动数据增强、分布式加速、自动模型压缩、自动调参、自动搭建网络六大机器学习先进技术,帮助研究者们用更短的时间搜寻更优异的模型参数,在保证精度的情况下更高程度的对模型进行压缩,通过自动数据增强进一步提升模型精度,节约85%的调参时间及95%的模型压缩、封装和部署工作量。

迄今为主,Occam平台已经在语音、声纹、人脸、OCR、NLP、医疗影像等领域服务了数十个研究团队与开发团队,广泛推动AI技术在平集团旗下产险、寿险、银行、普惠等专业公司的业务赋能。例如:基于Occam平台迭代训练的坐席机器人已经上线平安集团的逾千场景,赋能11家专业公司,节约年化成本超10亿元。

Occam平台加持,多项国际比赛勇夺第一

平安科技联邦学习团队通过Occam平台的加持,已经夺取了4个国际竞赛总冠军,包括由斯坦福大学发起的机器阅读理解竞赛和深度学习推理两项比赛,WMT2019年国际翻译大赛和图像识别领域COCO-Text比赛。此外,Occam平台于同期荣获由中国计算机学会设立的“2019年CCF科学技术奖科技进步杰出奖”,代表着Occam平台在计算机领域的创造力和影响力得到了国内外权威学术团体的高度认可,彰显了平台的硬实力。

图3:奥卡姆机器学习平台获奖列表

Occam平台为专利布局的落地保驾护航

本次论文入选不仅依托Occam平台所提供的强大技术支持,更得益于平安科技在知识产权领域的缜密布局和爆发式积累。作为平安集团的高科技内核,平安科技团队尤其重视智慧创新业务的孵化,为了适应不断变化的业务场景需求,在多个领域背后均有大量创新专利作为支撑,为前线的技术突破提供了保护和软实力证明。

一项名为“微服务调用链具象化的方法、装置、电子装置及存储介质”的专利为AlignTTS的在平台的部署发布提供了有力的帮助。专利提出了一种先进的控件展示方法,设计人员可以从控件目录中选择目标控件,并从展示的目标控件中快速查找到需要编辑的控件,避免了在页面展示区域展示的全部控件中逐个查找需要编辑的控件,进而大大节约了查找时间并提高了查找效率。

该专利基于微服务调用链的核心方法架构的思想和Occam这一强大的训练平台已经完成了有机结合,使团队高效高质地完成自动语音合成AlignTTS模型在平台的部署上线,极大地提升了研究人员使用平台的作业效率。

领先团队锤炼打造,Occam平台剑指AI领域新突破

平安科技联邦学习技术部AutoML项目组,由平安集团首席科学家肖京博士指导,平安科技副总工程师王健宗博士带领,汇集了来自国内外高等院校毕业的硕博人才,致力于推动自动化机器学习领域的生态发展。团队将行业应用与前沿AI技术进行深度、自动化融合,打破传统AI训练存在的“模型差”、“调参难”、“训练慢”等技术难点,一键开启人工智能训练便捷新时代。作为人工智能领域的前沿探索者,AutoML团队在构建专业AI新未来的目标指导下深耕自动化机器学习领域多年,不断挖掘人工智能高效自主赋能金融科技等领域的全流程解决方案,突破人工智能边界,用更先进、更科学的技术助力实业发展,为各领域的发展创造更大的价值。

关闭
精彩放送