Nvidia 推出了 Fugatto,这是一种突破性的生成式 AI 模型,能够根据简单的文本提示生成高保真音频。这种创新的文本转音频模型代表了 AI 驱动的音频合成的重大飞跃,与之前的模型相比,它提供了更好的质量和对生成声音的控制。Fugatto 能够生成具有细微变化的声音,这一点尤其令人印象深刻。该模型可以区分文本提示中的细微变化,从而产生更逼真、更富有表现力的音频输出。
以下是该模型功能的概述:
- 音乐创作:根据文本提示生成音乐、修改乐曲以及删除或添加乐器。
- 语音转换:改变语音中的口音或情绪并生成高质量的歌唱。
- 新颖的声音:产生富有想象力的声音,如喇叭声或风暴过渡到黎明。
- 动态音景:创造不断变化的环境,如移动的暴雨和渐弱的雷声。
- 梳理提示:结合独特的文本提示,例如带有悲伤语调的法语口音。
- 创意控制:提供对生成音频特征的精细控制。
Fugatto 的训练过程涉及使用大量高质量音频数据集,使模型能够学习文本和声音之间复杂的模式和关系。 Nvidia 强调了该模型能够产生细腻逼真的声音,包括包含多种乐器和声音成分的声音。这表明在创意音频合成方面取得了相当大的进步。
“我们将 Fugatto 设想为创意人士的工具,使他们能够快速将他们的声音幻想和闻所未闻的声音变为现实——这是一种想象的工具,而不是创造力的替代品。” – Nvidia
Fugatto 功能的影响深远。随着人工智能模型的不断发展,生成更加逼真和细致的音频的潜力无疑将在塑造音频技术的未来方面发挥越来越重要的作用。 Fugatto 的发布标志着人工智能生成的音频向更自然、更富有表现力的方向迈出了重要一步,为各种应用中更具沉浸感和互动性的体验铺平了道路。
在此处查看 Fugatto 的更多功能:https://fugatto.github.io/
Last modified: 27 11 月, 2024