百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

DouJia 2025-02-20 16:30 205 浏览

　　基于深度学习的有监督语音分离在学术界和工业界越来越受到关注百度文库ai生成ppt，也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一，本次百度文库ai生成ppt我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。

　　? 观看完整回顾大概需要31分钟

　　文仕学，过去学物理，后来学 EE，现在从事 Deep Learning 工作，未来投身 AI 和 CM 事业。他的研究兴趣在于语音信号处理和深度学习。在加入搜狗之前，曾在中国科学技术大学学习，在该领域的期刊和会议上发表了若干篇论文。现在在搜狗语音团队任副研究员。

　　AI研习社将本次分享的内容整理如下。

　　分享主题：基于深度学习的语音分离

　　文仕学首先介绍了 “语音分离”（Speech Separation）是怎么样的一种任务。这个问题来自于 “鸡尾酒会问题”，采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

　　根据干扰的不同，语音分离任务可以分为三类：

当干扰为噪声信号时，可以称为 “语音增强”（Speech Enhancement）

当干扰为其他说话人时，可以称为 “多说话人分离”（Speaker Separation）

当干扰为目标说话人自己声音的反射波时，可以称为 “解混响”（De-reverberation）

　　由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性，这从而也成为现代语音识别系统中不可或缺的一环。

　　基于深度学习的语音分离，主要是用基于深度学习的方法，从训练数据中学习语音、说话人和噪音的特征，从而实现语音分离的目标。

　　这次分享的内容有以下这 5 个部分：分离使用的模型、训练目标的设置、训练数据的生成、单通道语音分离算法的介绍和讨论。

　　基于深度学习的语音分离方法使用的模型

　　第一类模型是多层感知机，DNN，可以先做 RBM 预训练，再做微调（fine-tune）；不过文仕学介绍，他们团队通过实验发现，在大数据集上不需要预训练也可以收敛。

　　LSTM（长短时记忆网络）的方法中把语音作为一个随时间变化的序列进行建模，比较适合语音数据；CNN（卷积神经网络）通过共享权值，可以在减少训练参数的同时获得比全连接的 DNN 更好的性能。

　　近些年也有人用 GAN（对抗性生成式网络）做语音增强。模型中通常会把生成器设置为全部是卷积层，为了减少训练参数从而缩短训练时间；判别器负责向生成器提供生成数据的真伪信息，帮助生成器向着 “生成干净声音” 的方向微调。

　　训练目标的设置

　　训练目标包括两类，一类是基于 Mask 的方法，另一类是基于频谱映射的方法。

　　基于 Mask 的方法又可以分为几类

“理想二值掩蔽”（Ideal Binary Mask）中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性，把音频信号分成不同的子带，根据每个时频单元上的信噪比，把对应的时频单元的能量设为 0（噪音占主导的情况下）或者保持原样（目标语音占主导的情况下）。

第二类基于 Mask 的方法是 IRM（Ideal Ratio Mask），它同样对每个时频单元进行计算，但不同于 IBM 的 “非零即一”，IRM 中会计算语音信号和噪音之间的能量比，得到介于 0 到 1 之间的一个数，然后据此改变时频单元的能量大小。IRM 是对 IBM 的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。

TBM 与 IRM 类似，但不是对每个时频单元计算其中语音和噪声的信噪比，而是计算其中语音和一个固定噪声的信噪比

SMM 是 IRM 在幅度上的一种形式

PSM 中加入了干净语音和带噪语音中的相位差信息，有更高的自由度

　　虽然基于 Mask 的方法有这么多，但最常用的还是开头的 IBM 和 IRM 两种

　　如果使用频谱映射，分离问题就成为了一个回归问题。

　　频谱映射可以使用幅度谱、功率谱、梅尔谱以及 Gammatone 功率谱。Gammatone 是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应，通常还会加上对数操作，比如对数功率谱。

　　基于频谱映射的方法，是让模型通过有监督学习，自己学习有干扰的频谱到无干扰的频谱（干净语音）之间的映射关系；模型可以是 DNN、CNN、LSTM 甚至 GAN。

　　这一页是使用相同的 DNN 模型、相同的输入特征、不同的训练目标得到的结果。

　　左边的 STOI 指语音的可懂度，得分在 0 到 1 之间，越高越好；右边的 PESQ 是语音的听觉质量、听感，范围为 - 0.5 到 4.5，也是越高越好。

　　基于 Mask 的方法 STOI 表现较好，原因是有共振峰的能量得到了较好的保留，而相邻共振峰之间波谷处的声音虽然失真较大，但人耳对这类失真并不敏感；两类方法在 PESQ 中表现相当。

　　训练数据的生成

　　针对语音分离中的语音增强任务，首先可以通过人为加噪的方法生成带噪语音和干净语音对，分别作为输入和输出（有标注数据），对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。

　　不过收集噪声需要成本，而且人工能够收集到的噪音总是有限的，最好能够有一套完备、合理的方案，用仿真的方式生成任意需要的噪声。在今年的 MLSP（信号处理机器学习）会议上，搜狗语音团队就发表了一项关于噪声基的工作，通过构造一个噪声基模型，在不使用任何真实噪音数据的情况下，生成带噪语音对语音增强模型进行训练，达到了与使用 50 种真实噪音的情况下相当的性能（下图）。

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

　　如果将这 50 种真实噪声和噪声基产生的数据混合在一起，性能可以比单独使用真实噪音的情况得到进一步提高。这也说明噪声基生成的噪声和真实噪声数据之间有着互补性，在实际应用中也可以解开一些真实噪声数据不足带来的限制。

　　单通道语音分离算法

　　如开头所说，语音分离任务可以分为三类，语音增强、多说话人分离和解混响。不同任务的处理方法也有所不同。

　　对于语音增强，基于 Mask 的方法首先进行耳蜗滤波，然后特征提取、时频单元分类、二值掩蔽、后处理，就可以得到增强后的语音了。

　　语音增强的另一类基于频谱映射的方法中，先特征提取，用深度神经网络学习带噪语音和干净语音的对数功率谱之间映射关系，再加上波形重建，就可以得到增强后的语音。

　　基于有监督学习的算法都存在推广性（generalization）的问题，语音增强这里也不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。

　　对于解混响，同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据，但不同于带噪语音生成时做时域的相加，带混响的语音是在时域上进行卷积；同样都把干净语音作为带标注数据。

　　在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间，深度神经网络需要学习的时间窗口长度是不一样的，因而改进方法中加入了告知混响时间的功能，根据帧移 R 和扩帧数目 N 提特征后解码，可以获得更好的解混响效果。

　　多说话人分离分为三种情况

目标说话人和干扰说话人都固定，Speaker dependent，有监督分离

目标说话人固定，训练阶段和测试阶段的干扰说话人可变，Target dependent，半监督分离

目标说话人和干扰说话人都可变，Speaker independent，无监督分离

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

　　对于有监督和半监督分离，可以使用基于频谱映射的方法，与前面使用基于频谱映射的方法做语音增强类似。

　　对于无监督分类，有无监督聚类、深度聚类以及最近的序列不变训练（PIT）方法。PIT 方法的核心是红框中标出的部分，在误差回传的时候，分别计算输出序列和标注序列间各种组合的均方误差，然后从这些均方误差中找到最小的那个作为回传误差，也就是根据自动找到的声源间的最佳匹配进行优化，避免出现序列模糊的问题。

　　讨论两个问题

　　最后，文仕学给大家留了两个思考题，欢迎大家在评论区给出自己的见解。

第一个问题是语音分离任务中，是按传统思路先变换到频域，然后在频域上进行处理，还是直接在时域上处理比较好？后者的好处是端到端训练，不用考虑频域方法做傅立叶反变换时相位的问题。

第二个问题是对于语音增强任务，应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪？

　　感谢文仕学此次的分享以及对文本的指正，也欢迎大家关注 AI 研习社未来的更多分享活动！

　　如何用 MOOC 组合掌握机器学习？

在哪里百度

上一篇：下载音乐歌曲免费下载,下载
下一篇：百度爱采购收费没效果怎么退费怎么法官,百度爱采购怎么收费

相关推荐

探索AI官方网站：未来技术的门户，立得ai官方网站: 在数字化时代，人工智能（AI）已经从科幻小说的幻想变成了日常生活的一部分。AI官方网站作为这一领域的前沿窗口，不仅展示了最新的技术进展，也是公众了解和接触AI的桥梁。这些网站是信息的宝库，对于科技爱好...

郭敬明AI：未来文艺创作的新篇章，郭敬明陈学冬是什么关系: 在当代中国的文艺界，郭敬明的名字可谓家喻户晓。他不仅是畅销书作家、导演，更是文化潮流的引领者。然而，当郭敬明遇见人工智能（AI），这个故事就开启了一个全新的篇章。本文将探讨郭敬明与AI的结合，以及这种...

AI志愿助手2024：未来服务的新篇章，AI志愿助手怎么用: 随着人工智能技术的飞速发展，我们已经目睹了AI在各行各业中扮演着越来越重要的角色。2024年，一个名为“AI志愿助手”的项目脱颖而出，它不仅预示着志愿服务领域的一场革命，还标志着人机协作新时代的到来。...

探索667AI.com：未来科技的前沿阵地，: 在这个飞速发展的时代，人工智能（AI）已经成为推动科技进步的重要力量。从虚拟助手到自动驾驶汽车，AI的应用正变得无处不在。而667AI.com作为AI领域的一个新星，不仅代表了技术创新的前沿阵地，更是...

探索414ai：人工智能的未来前沿，414爱情意思: 在当今这个快速发展的科技时代，人工智能（AI）已经渗透到我们生活的方方面面，从智能手机的个人助手到自动驾驶汽车，再到医疗诊断和金融分析。然而，随着技术的不断进步，一个新的概念正在崛起——414ai。这...

由于您未提供具体的网站[www.1234ai.com]的内容信息，我将创建一个假设性的文章，以符合您的要求。请注意，以下内容是虚构的，仅用于示例。，: 由于您未提供具体的网站[www.1234ai.com]的内容信息，我将创建一个假设性的文章，以符合您的要求。请注意，以下内容是虚构的，仅用于示例。在数字时代，人工智能(AI)正逐步渗透我们的生活...

深入探索：Dota6.59AI版本的变革与魅力，dota6.59ai下载: 在电子竞技的世界里，Dota2一直占据着举足轻重的地位。然而，在Dota2风靡全球之前，DotaAllstars系列的多个版本已经培养了一代又一代的玩家。Dota6.59AI版本，作为这一系...

AI教程下载：掌握未来技能的起点，ai软件基础教程下载: 在这个信息爆炸的时代，人工智能（AI）已经不再是科幻小说中的概念，而是渗透到了我们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，AI的应用正日益广泛。如果你对AI充满好奇，渴望学习这门前沿技术，...

AI品牌的崛起：未来商业的新篇章，AI品牌: 在这个信息爆炸的时代，人工智能（AI）已不仅仅是一个科技领域的专业术语，它已经渗透到我们的日常生活中，并逐渐塑造着未来的商业模式。AI品牌，作为这一趋势的领航者，正在开启商业的新篇章，它们不仅改变了品...

甜性涩AI：科技与情感的交融，涩甜的意思: 在这个科技日新月异的时代，人工智能（AI）已经渗透到我们生活的方方面面，从日常的语音助手到复杂的医疗诊断系统，AI的存在正变得不可或缺。然而，当AI开始模仿人类的情感和行为，我们进入了一个全新的领域—...

探索6.61bAI：未来智能的新篇章，661百帕气压含氧量是多少: 在科技的浩瀚宇宙中，人工智能（AI）始终是一颗耀眼的明星，引领着无数探索者和研究者不断前行。而当我们提到6.61bAI时，我们实际上触及了一个前沿领域，一个可能彻底改变我们生活和工作的技术领域。这篇...

探索6.67cAI：人工智能的未来边界，667材质是什么: 在当今科技迅速发展的时代，人工智能（AI）已经渗透到我们生活的方方面面，从简单的语音助手到复杂的自动驾驶汽车。随着技术的不断进步，AI的潜力似乎无限大。然而，在众多AI的分支中，有一个特别引人注目的概...

会员中心: 登录注册

百度热搜
新浪热搜

最新抖音

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

最新快手

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

相关推荐

抖音很火的生日短句生日图片,抖音很火的生日短句

抖音心动之夜直播在哪看,抖音心动之夜直播

黑瓜网-每日大赛抖音风合集(黑皮西瓜叫什么品种)

成人抖音国际版ios(成人抖音国际版ios苹果)

抖音水冰月大学视频,抖音水冰月大学视频完整版

抖音总是闪退怎么解决,抖音总是闪退是什么原因

高一体育生飞机抖音,高中篮球男体育生打球挂空挡

抖音是哪个国家的,抖音是哪个国家的人发明的

抖音在线挖玉：短视频里的宝石探秘之旅，抖音挖矿赚钱app下载

抖音短视频：现代人的快乐源泉，我想看抖音里的搞笑片

探索抖音在线观看的无限世界，抖音在线网址打开

快手下载的视频怎么去掉快手号,快手下载视频怎么去掉快手号水印

快手小游戏破解版游戏大全(快手小游戏破解挂)

快手下载最新版本2023红包版,快手下载最新版本2023

快手下载别人作品对方知道吗,快手下载别人作品会不会有提醒

下载快手app(下载快手app下载)