首页 > 软件资讯 >英伟达与MIT合作推出Audio

英伟达与MIT合作推出Audio

2025-05-14 15:15:05青软科技园

近日,科技界传来一项新的合作成果,英伟达与麻省理工学院(MIT)携手推出了Audio-SDS技术,这是一项基于文本条件的音频扩散模型扩展技术,为音频生成领域带来了新突破。

音频扩散模型在近年来凭借其生成高质量音频的能力备受瞩目。然而,这类模型的一个显著局限在于难以对明确且可解释的参数进行优化,这限制了其在实际应用中的灵活性和广泛性。

为了克服这一挑战,英伟达与MIT的科研团队首次将Score Distillation Sampling(SDS)方法引入到音频领域。他们结合了预训练模型的强大生成能力与参数化音频表示,从而无需依赖大规模特定数据集,即可应用于FM合成器参数校准、物理冲击音合成以及音源分离等三大关键任务。

SDS技术此前已在文本生成3D图像和图像编辑领域得到了广泛应用。英伟达此次将SDS技术与音频生成相结合,推出了Audio-SDS。该技术能够利用预训练模型的先验知识,直接根据高级文本提示调整FM合成参数、冲击音模拟器或分离掩码,从而实现了更加灵活和精准的音频生成。

在实验中,研究团队采用了基于解码器的SDS、多步去噪以及多尺度频谱图等方法。实验结果表明,Audio-SDS在主观听觉测试和客观指标(如CLAP分数、信号失真比SDR)上均展现出了卓越的性能。

Audio-SDS的一大创新之处在于,它仅需一个预训练模型即可支持多种音频任务,从而极大地降低了对大规模领域特定数据集的依赖。这一特性使得Audio-SDS在音频生成领域具有更广泛的应用前景。

然而,研究团队也指出了Audio-SDS目前仍面临的一些挑战,包括模型覆盖范围有限、潜在编码伪影以及优化敏感性等问题。他们表示,未来将继续致力于解决这些问题,以进一步提升Audio-SDS的性能和应用范围。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

9643
669

同类推荐更多

房中九术最厉害的姿势是什么?不同群体的真实体验与感受大公开:你也能体验深度亲密关系

房中九术最厉害的姿势是什么?不同群体的真实体验与感受大公开:你也能体验深度亲密关系

最火的软件资讯

2025-04-11

房中九术,作为一种古老的性文化理论,涵盖了很多技巧和姿势,其中有一些被认为是最为高效和强大的姿势,能够带来极大的生理和心理上的满足。很多人对于这些姿势的理解可能局限于一些传统观念,但其实每个姿势都有其独特的功效和技巧。对于寻求深度体验和提高亲密关系质量的人来说,掌握正确的姿势尤为重要。那么,房中九术最厉害的姿势究竟是什么呢?让我们来逐一分析其中的精华部分。 房中九术:传承与现代结合 房中九术最早