当前位置:首页 > 股票行情

微软AI新技术:让你的头像照片动起来,并有感情地“讲话”【彩票网站平台_彩票注册】

更多的研究表明,如果有足够的语料库,人类的面部动作和语音不道德就需要实时。 两年前,卡内基梅隆大学的研究者发表了一篇论文,说明如何把一个人的脸的动作转移给另一个人。 然后在今年6月,三星的应用科学家需要解释端到端的模型,将人的头特写眉毛、嘴、睫毛、脸颊动画化。 几周后,Udacity意味着从音频开幕式上展示了可以自动分解双脚演说视频的系统。

彩票网下载

基于先前的研究和工作,微软公司的研究小组本周明确提出了技术。 他们主张这项技术有必要提高传声化身动画的真实感。

在此之前,头部动画的分解必须很清楚,必须比较没有噪音的声音和中性的音调。 现在,研究人员反应说,他们的技术需要将语音序列分解为语音内容和背景噪声等要素,从而可以用于噪声和“有感情色彩”的数据样本。 (公众号:)录:图片是微软熟悉的,所以声音有差异。

彩票网站平台

因人而异,使用于不同的环境中,持续性、振幅、语调等不同。 不仅是声音内容方面,声音本身也支撑着非常丰富的信息,需要说明人的感情状态、身份(性别、年龄、人种)、个性等。 事实上,微软公司的研究者明确提出的技术是基于自学可能明确的自变化编码器(VAE:variationalautoencode,vae )。 VAE需要将输出的声音分解为不同的表现形式,包括编码内容、表情、其他变化的要素,根据输出声音,从生产中采样几个内容响应序列,该序列与输出的面部图像一起进行视频播放为了训练和测试VAE,研究者选择了三组数据集。

GRID :这是av语料库,每个语料库包含34个演讲者的1000条录音。 crema-d :包括7442个电影剪辑,来自91个不同种族的演员。

LRS3 :包含最多10万个TED视频中的口语句的数据库。 研究者将GRID和CREMA-D的数据输出到模型中,使其认识到语音和情感密切相关,然后用一对定量指标——峰值信噪比(PSNR )和结构相似度指数(SSIM)——评价视频分解的质量。

这个研究小组的应对表明他们的方法和其他明确中性的口语表现方法在所有指标上都是一样的。 然后他们意识到这种方法不仅需要在整个情感谱中继续表现,而且与现在最先进的设备的所有语音头像方法都兼容。

有趣的是,其变种特异性的可学习的事前方法还需要扩展到身份和性别等其他语音要素,这些要素需要作为将来工作的一部分来探索。 通过测试噪声和情绪的语音样本,研究人员验证了其模型,指出当语音发生变化时,该方法高于目前的技术水平。

彩票网下载

录:本论文的编译器是从KYLE WIGGERS向venturebeat公开的文章。 微软公司的研究成果: https://arxiv.org/PDF/1910.00726.PDF原创文章,允许发布禁令刊登。 以下,听取刊登的心得。。

本文来源:彩票网站平台_彩票注册-www.weaboodesu.com