央视AI唱作大热背后是怎样的技术?|亚博网页版登陆界面

产品中心 | 2021-02-17
本文摘要:公共云部署私有化部署多语言国际化的离线部署反对:微软的语音合成反对全球49种语言,近80种声音。

公共云部署私有化部署多语言国际化的离线部署反对:微软的语音合成反对全球49种语言,近80种声音。深度神经网络反对中文和英文。

工业云计算平台:微软的语音合成反对全球12个以上的数据中心。深度神经网络可以超过产品水平的动态亲和力。

反对低发。整体语音反对:Microsoft Corporation语音可以获得整体语音识别、翻译、语音合成等解决方案,可以反对智能客户服务、翻译等。微软公司的语音解决问题当事人已经落地的场景包括小米9手机王文声音的定制、ROOBO智能机器人、智能会议系统、微软公司翻译、微软公司文档等。就像李英英说的,适用于需要瞬间越过很多人的手机。

要计算低发和庞大的网络和市场需求,强大的云基础架构必须相反。但是,微软和中央电视台新闻的合作来自中央电视台团队春节前访问微软新的知乎技术展示中心。(威廉莎士比亚、中央电视台、中央电视台、中央电视台、中央电视台、中央电视台)从移交的话来看,此次合作无意中带有必然性,另一方面,经常会看到AI技术取得重大突破。

例如,去年9月,微软首次发布了企业级定制语音合成平台,企业可以根据自己认为的音色在微软的平台上定制声音。去年12月,微软在语音方面取得了根本性的技术突破,即深度神经网络语音合成技术不能一次性创造出原来的语音合成领域,从而建设了很多无法做到的东西。(威廉莎士比亚、温斯顿、语音、语音、语音、语音、语音、语音、语音)显然,自然度方面可能更像人类,语气、感情方面也会有很大的提高。

另一方面,在行业“变化”较大的环境下,传统媒体反过来发展为新媒体融合。传统企业也要与新兴技术、新兴产业融合,顺应时代潮流,延续未来的拒绝。

只是小米9王文定制声音、CCTV主持人姜辉定制声音、去年微软斯莫尔冰进驻小米智能扬声器、华为手机,反映了微软全方位的AI能力。未来不会在视觉、听力、语音等制造业、零售业、媒体、教育、医疗、金融等多个领域广泛使用。特别是,与中央电视台新闻的此次融合媒体产品由来自微软基础研究的自然语言部门和语音产品部门、智能云产品部门和市场部门的人组成跨部门项目团队,近一个月与中央电视台进行深入合作,建立了将用户输出照片称为Rap的即时体验,并整合了多家微软公司的AI和云服务。(阿尔伯特爱因斯坦,Northern Exposure(美国电视剧),RAP(美国电视连续剧),创作) (公众号:)记录:微软公司自然语言计算组微软与中央电视台新闻合作,背后有什么考虑?李转:刚开始中央电视台明确提出合作市场需求时,我们考虑了几个方向。

首先,用户体验可能会很好。第二,尽管时间是凸的,但当时我们认为微软在AI的各个方面都有相当大的技术积累,这可以说是全栈式的,我们可以把步子放大一些。

(威廉莎士比亚、温斯顿、时间)只是这个项目中使用了很多图像识别、自然语言处理、语音识别、语音合成等多种AI技术,还使用了微软的智能云能力。所以最终与春节相似的时间段节点CCTV一起发行,要求很多用户和网民进行比较愤世嫉俗的玩笑和寒冷的产品体验。

同时,在微软内部也是阅兵AI和云各部门慢慢合作和落地的机会,所以当时我们去做这个项目。问题:整个合作过程中有什么问题?Wayperd:从自然语言来看,用户对歌词的拒绝是什么,存在一些差异。(大卫亚设,Northern Exposure(美国电视剧),歌词很开朗,因为它更重视相似的生活。

输出部分要从照片中获取尽可能多的信息。最基本的是告诉你画中是什么环境,有什么物体,不是人,多少人,大概年龄等。还有人的性别、表情、颜色背景等更细致的内容。

我们要将这些图像处理的结果与用于分解歌词的关键词同步,然后将深刻自学的歌词创作模式分解成一句话。但是事实上,照片识别的一般结果在数量和类别上很难符合歌曲作词所需的想象力。为此,需要将该信息重新处理为更细致的关键词,然后从该关键词中重新分解歌词。一般歌词有十个,甚至一两句,所以要给予更多的处分。

同时,要以大量的数据为基础。在数据方面,人们更容易想起的是歌词。我们捕捉到了很多歌词。用户应该在分解的歌词中感受到中国传统文化的气息,在这里我们利用宋词训练模特。

亚博网页版登陆界面

另一个难题,众所周知的歌词或颂词,总的来说,事物想到人,伤心春天,伤心秋天可能会更多。但是春节期间我们期待大家幸福。所以我们也调整了算法。

亚博网页版登陆界面

例如,我们不会努力分解算法强大的句子,包括下列字,也不会妥善处置:所以在技术上,一个是多年的累积,包括技术和文化。二是为了类似的应用,进行详细的适应环境调整。当然,人类的建设能力非常强,机器的优点更体现在记忆中。

例如,韵律,普通人更容易控制,但机器和算法更容易。(约翰肯尼迪,节奏名言)基础研究还有很长的路要走,AI的内容构建能力仍然有限。问题:无论是文本到速度(TTS)还是图像识别,仅次于困难的是什么,如何解决问题?Wayperd:通过图像输入,歌词太抽象更是不足为奇。(大卫亚设,Northern Exposure(美国电视电视剧),)例如,说里面有脸,或者只说里面的人,或者只告诉里面的几个人。

(阿尔伯特爱因斯坦)在这种情况下,写歌词的效率很低,所以我们要把这个信息用更细致的关键词处理,然后再从这个关键词分解歌词。歌词里有十几句,甚至一两句,实际上要给予更多的处分。李转移:我们的场面好像是在小学语文考试中看画画作文。

我给你一张画。当然,我们假设是彩色地图,它是一幅画或两幅画,你是作曲的。我们做的和看图做诗差不多。

整个链接下来了。中间的坑很多而已。(阿尔伯特爱因斯坦)问题:能重点说明微软在解释读者方面的优势吗?Wayperd:SQUAD机器读者解释数据集,最近两年特别火。

在工业界和研究领域都受到了普遍关注。2018年1月微软亚洲研究院提交的模型在EM价值上以82.650的最高分数首次打破了人类分数82.304。9月份,我们的模型在EM值和F1值两个维度以85.954和91.677的分数首次在SQuAD数据集中完全打破了人类的面貌。

2019年1月,以BERT研发为基础的最近系统在SQuAD2.0和交互式、多轮读者解释数据集CoQA方面继续保持领先地位。问:人工智能的“表达方式”与人类不同。人有感情和思维,是说话过程中情感兼备的传达,也是最重要的反映自然人性格和个性的方式。

感情的传达反映在算法中,是一个怎样的过程?微软TTS对机器情感输入有什么看法?刘月英:机器的感情主要是两个要求:数据和算法。Microsoft Text to Speech(TTS)在数据收集方面与以往不同,更加重视情感和意义的传达。另一方面,基于深度神经网络TTS的算法自学能力更强,能更好地恢复为感情,自然度更高。

最后,我们重新添加了多种情感和多风格的声音建模,并在准备中展开了正确的控制。(大卫亚设,Northern Exposure(美国电视),完成)问题:中文传达和英文等没有语言差异。

对人类来说,通风、中断、同音、断句的区分是一个更容易的过程,对NLP不再有帮助。老实说,微软在“以人类为模型”语言的详细处理方面有什么经验和进展?刘月英:微软在语音方面已经工作了很多年。另外,从第一个参数的准备、单元的修补,到此次深度神经网络的语音合成,都是阶段性的累积。

这次深度神经网络与原来不同。传统方法可以解释为每个音被不同的单位分开。通过比较多的音节单位的积累,可以将不同的音节单位组合成一句话,但这种准备比较机械,在修补过程中不圆的地方没有机械感,或者只是自然。

但是深度神经网络语音合成是包括末端的声音和韵律建模、声音准备模型在内的末端语音合成系统。解决传统语音合成系统的局限性,优化口语和歌曲的口音、口音、节奏,大大提高语音合成的表现力,具有更加自然的韵律和丰富的感情。中文传达主要包括停顿、压力、语气、节奏、内容解释。

微软的深度神经网络TTS可以精细地还原成人类的通风声音,使语音合成更具人类特征。对于短、中、下一个字,微软针对不同的语言元素展开有针对性的建模,然后利用端到端声音建模,学习了实际语音中最需要的表达。问题:除了语音技术外,还使用什么能力?Wayperd:我们不会使用数十万个标签和100多种不同的图像识别技术。

(大卫亚设,Northern Exposure(美国电视剧),当你有几张脸的时候,你就知道这个人是否幸福,或者处于什么状态。还有形象中人物的性别,我们要拿这个信息做歌词。获得图像识别信息后,首先要将该信息分类为歌词的关键词。

第二步是把歌词一句一句地分解。此时,使用序列到序列分解模型。

问:这次合作中不存在的商业潜力是什么?刘月英:现在是多元化、个性化的时代。每个产品或公司都期待自己的形象。

这个图像可以在一定程度上基于图像级别或声音。未来的声音定制不是趋势。每个企业、设备、个人都有独特的人工智能个性化声音,可以将声音带入生活中更好的角落。

另外,深度神经网络还可以减少训练所需的录音数据量,使声音定制不再成为可能,这是一个很好的合作点。(大卫亚设、Northern Exposure(美国电视剧)、Northern Exposure(美国电视剧)提问:在此次合作中,微软在云计算方面有何部署?李英通:从云计算的角度来看,就像日常生活中使用的电一样,都使用电,但会特别注意它不存在。(大卫亚设,Northern Exposure(美国电视),成功)我们发展云计算也是一样,应该为大家获得最差的性能和最差的经验。(威廉莎士比亚、云计算、云计算、云计算、云计算、云计算、云计算、云计算)目前,微软在中国投入了大量云计算基础设施,此次利用了云平台数据库和网络服务。

微软目前在中国设有4个数据中心,分别位于北京和上海。通过云网络技术,对不同地区的敦促进展缓慢。此外,戴尔还将在中国各地的内容通过网络分发,使用户在体验过程中受到网络带宽的影响。《你的生活,AI为你演唱不作》在中央电视台平台发行,面向全国范围内更广泛的用户。

所以我们要确保这些听众都需要好、慢、有效率的经历。这可能是因为我们在基础设施上投入大量,才能做出这样的保障。

李勉:我们提高了很多CDN速度。我们的房间离主要节点很近,整体速度仍然很快。不仅上传速度,即使发出的召唤,从后台CPU冲刺的数据来看,我们真的很安心。(威廉莎士比亚、温斯顿、荣) (记录:微软亚洲互联网工程公司语音工程师刘月英)前往青铜、银,进入“黄金时代”的比尔盖茨表示:“语言解释是人工智能。

”NLP的历史和电脑和人工智能AI的历史一样广阔。也就是说,在电脑出现的瞬间,人工智能AI也出现了。人工智能AI研究的第一个领域是机器翻译和自然语言解释。

微软公司亚洲研究院自1998年创立以来,一直充分推崇NLP。据微软亚洲研究院官方数据显示,累计2018年11月共发表100余篇ACL大会文章,发行《机器翻译》和《智能解说》篇著作,实习人员500人,博士20人,博士后20人等。

亚博网页版登陆界面

微软开发的NLP技术包括输入法、分词、语法/语义分析、文摘、情感分析、解说、跨语言搜索、机器翻译、科学知识地图、聊天机器人、用户画像、推荐等。不与Windows、Office、创意技术集团进行研究开发的微软公司的大连和联合展也已经为数千名用户提供服务。

21年来,无论是微软亚洲研究院还是AI产业。走向荒凉肥沃的土地,逐渐进入艰苦耕种后的各种“进口”。

那么,微软TTS现在或未来有什么希望呢?问:微软最近在TTS领域有什么新论文或新突破,能说明突破和对产业的影响吗?团队摘要:2018年12月,微软公司语音在微软Azure云发布创新技术突破——端到端深度神经网络语音模型,将语音合成带入高清新阶段(见英文blog)。深度神经网络语音合成技术将语音合成的质量和语音模型的制作提高到了一个新的水平。

我们可以感觉到声音更自然。教育模式需要的数据量很少。相反的语音模式也慢慢扩展到了各种风格。

微软的语音合成技术已经在世界顶级期刊和会议上公开发表了多篇论文。《learning latent re presentations for style control and transfer in end-to-end speech synthesis》,3359 arxiv . org/pdf/;Accepted by icassp 2019 . neural speech synthesis with transformer network,https://arxiv . org/pdf/1809.08895 . pdf,Accepted by Accepted问:AI语音及自然语言处置比较缺乏技术、产品周期、落地情况,从实际落地情况来看,微软在这方面有何进展?未来有什么希望的方向?韦福德:我不知道NLP技术有多不落地,本质上每天都在使用搜索、输入机、翻译等自然语音处理的技术。

当然,对于完全依赖自然语言处置的以技术为中心的大规模用户来说,应用和服务还不是成熟期,这主要是有市场需求和情景的,应该能够解决问题用户的实际问题。相反,目前的机会在于NLP。指研究和外部的市场机会。

很多VC也脱颖而出。研究方面说2018年都是NLP年,那就是自然语言处置年。

谷歌的BERT这样的事前训练模式给新的研究课题带来了灵感,使其能够进行标准化的语言解释,并能稍微理解探索和重点投入的研究方向。(威廉莎士比亚,《北方执行报》)。在目前自然语言解释的任务中,实际训练模式能很好地减少显示数据少和跨领域的问题,这就是实际应用中遇到的实际问题。

(大卫亚设,Northern Exposure(美国电视剧),自然语言解释,自然语言解释,自然语言解释)落地的机会也很多。标准化解释后,要更慢地与特定领域兼容。然后,即使显示数量相对较少,也能得到很好的结果。这都是实际发生的问题。

我指出,下一个NLP在研究上、落地上和市场上都应该有很多机会。刘月英:传统的AI语音合成技术没有产品周期长的问题。因为声音收集量大,时间幸运,费用昂贵。

经过微软公司语音团队多年的研究和技术改造,现已首次建立平台化、产品化的语音合成服务。第一,深度神经网络模型可以大大减少声音收集的量和成本,在自然中也是如此。在程度和保真度上,能很好地恢复成人声音。另一方面,微软通过允许用户自定义语音合成数据和模型的平台简化定制语音服务,将开发周期更短、更好的个性化应用于场景。

因此,未来的人工智能语音不会有更多的落地场景,会给用户带来更丰富的体验。目前,微软的语音产品已应用于微软的多种人工智能产品和平台,包括微软的小冰块、微软的小我(Cortana)、Windows、Skype、理解服务(Cognitive Service)。此外,微软的语音产品与智能助理、智能客户服务、智能汽车、智能朗诵等第三方企业合作得更好。

除了此次CCTV项目外,微软的语音和小米手机合作,最近在小米旗舰Mi9的手机内定制了王文明星的声音。通过语音的腿,粉丝和偶像之间的距离加深了。未来的声音定制不是趋势。

每个企业、设备和个人都有独特的人工智能定制声音,可以将声音带入生活中更好的角落。问:未来AI方向有什么机会?李勉:我在AI的方向真的有三个机会。一种是将注入式AI,即AI技术引入现有产品和服务。

亚博网页版登陆界面

(阿尔伯特爱因斯坦,Northern Exposure(美国电视),成功)第二,有相当大的机会是发掘科学知识。例如,搜索引擎可以看作是基于整个网络数据的标准化知识库的挖掘,已经比较了成熟期。

但是,在当今大多数企业内部等专业知识库中,很多数据岛并未被切断。因此,我们指出,自然语言处置现在有需要着陆的地方。

第三是机器学习的工具和平台上的高附加值产品和服务。例如,如果几个人扣除一个小团队,就可以制作面部识别产品。但是,AI落地生产场景后,能够得到业务进一步呼吁的公司并不多。

例如,高速铁路的闸门需要调用724小时的数据,这部分也可以说是AI数据推理小说,是AI技术供应商可以获得的电子货币服务。因此,必须帮助各现有行业的企业客户落地AI,发挥更大的价值。

原创文章,发布许可禁令。下面,我们来听一下关于刊登的注意事项。


本文关键词:亚博网页版登陆界面

本文来源:亚博网页版登陆界面-www.bebebackpacker.com