• 文章
  • 新闻
  • 资料
  • 视频
  • 活动
  • 特别报道
  • VIP智库
  • 专家
  • 报告
e-works为您找到 241  条结果
  • 相关性
  • 发布时间

看懂深度学习在语音合成&增强上的应用

2.预测屏蔽值信息采用这类方法建模模型的输入可以是听觉域相关特征,模型的输出是二值型屏蔽值或浮点型屏蔽值,最常用的听觉域特征是Gamma滤波器相关特征,这种方法根据听觉感知特性将音频信号分成不同子带提取特征参数 ;对于二值型屏蔽值,如果某个频单元能量是语音主导,则保留该频单元能量,如果某个频单元能量是噪声主导,则将该频单元能量置零;采用这种方法的优势是,共振峰位置处的能量得到了很好的保留,而相邻共振峰之间波谷处的能量虽然失真误差较大 ,但是人耳对这类失真并不敏感;因此通过这种方法增强后的语音具有较高的可懂度;浮点值屏蔽是在二值型屏蔽基础上进一步改进,目标函数反映了对各个频单元的抑制程度,进一步提高增强后语音的话音质量和可懂度。 5.DeepClustering说话人分离基于深度聚类的说话人分离方法是另一种说话人无关的分离模型,这种方法通过把混叠语音中的每个频单元结合它的上下文信息映射到一个新的空间,并在这个空间上进行聚类,使得在这一空间中属于同一说话人的频单元距离较小可以聚类到一起 ;将频单元映射到新的空间跟词矢量抽取的思想有些类似,可以通过k均值聚类的方法对时频单元分组,然后计算二值型屏蔽值分离出不同说话人的语音,也可以通过模糊聚类的方法描述不同的频单元,然后计算浮点型屏蔽值后分离混叠语音
来源:雷锋网
2017-09-17
共 25 页 总数:241
信息搜索中,请稍候...

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看