编程客栈() 6月12日消息:Meta 的 MusicGen 可以根据文本提示生成短小的新音乐片段,并可选择与现有旋律对齐。
与今天的大多数语言模型一样,MusicGen 基于 Transformer 模型。就像语言模型预测句子中的下一个字符一样,MusicGen 预测音乐作品中的下一个部分。
(资料图片)
研究人员使用 Meta 的 EnCodec 音频标记器将音频数据分解为较小的组件。作为一个单阶段模android型,它可以并行处理标记,因此 MusicGen 速度快且高效。
该团队使用了 20,000 小时的授权音乐进行训练。特别的是,他们依赖于一组内部的 10,000 首高质量音乐曲目的数据集,以及来自 Shutterstock 和 Pond5 的音乐数据。
MusicGen 可以处理文本和音乐提示
除PfmbdFce了架构的效率和生成速度外,MusicGen 在能够处理文本和音乐提示方面也是独特的。文本设置了基本风格,然后与音频文件中的旋律匹配。
例如,如果将文本提示「一个轻快愉快的 EDM 音轨,带有交响鼓、轻柔垫音和强烈情感,速度:130 BPM」与巴赫著名作品《降 D 小调的触技曲与赋格曲(BWV 565)》的旋律结合起来,将生成以下音乐作品:
你无法精确控制与旋律的结合,例如在不同风格中听到旋律。它只作为生成的大致指南,并不完全反映在输出中。
MusicGen 领先于Google 的 MusicLM
研究的作者对其模型的三个不同大小进行了测试:3 亿(300M)、15 亿(1.5B)和 33 亿(3.3B)个参数。他们发现更大的模型生成的音频质量更编程客栈高,但人们评价最好的是 15 亿参数模型。另一方面,33 亿参数模型更擅长准确匹配文本输入和音频输出。
与其他音乐模型(如 Riffusion、Mousai、MusicLM 和 Noise2Music)相比,MusicGen 在客观和主观指标python上表现更好,这些指标测试音乐与歌词的匹配程度以android及作曲的可信度。总体而言,这些模型略高于Google 的 MusicLM 水平。
Meta 已在 github 上发布了代码和模型的开源版本,并允许商业使用。在 Huggingface 上提供了演示。
Github 代码和模型:https://github.com/facebookresearch/audiocraft
Huggingface演示:https://huggingface.co/spaces/facebook/MusicGen
下一篇:最后一页
编程客栈()6月12日消息:Meta的MusicGen可以根据文本提示生成短小的新音
随着对住宅环境要求的提高,越来越多的人选择购置洋房。而洋房中的
销售产品取得收入会计分录?由会计实操考试栏目提供,查找更多考试报名
管道输氢是降低氢能储运成本、推动氢能规模化应用的重要途径,在“双碳
A股午评:指数早盘涨跌不一无人驾驶板块大涨,早盘,a股,涨停,无人驾驶,
把电力从“沙戈荒”送抵湖南这个超级工程开工了!,
跨境支付公司杭州乒乓智能技术有限公司发生工商变更,包括陈宇、杭州王
黑曜石《宣誓》实机预告片2024年发售介绍了 在Xbox发布会上,黑曜石
洋葱是日常生活中常见的蔬菜之一,它的既可以生吃,当做调味的小菜,也
原标题:一种新型社交关系正在流行——(引题)“搭子”社交,年轻人情
与插线板渠道较为契合的墙壁开关插座,公牛做到了第一,而在分散的LED
1、《江湖小侠传(民国武侠小说典藏文库·平江不肖生卷)》是2020年中
App6月10日消息,在9日伦敦举行的海南自贸港英国专场推介会上,多家英
择一业终老遇一人白首广铁集团工会怀化文化宫举办百名单身青年联谊活动
1、3我的家一年四季都很美丽很美丽。2、春天,小草从地里慢慢地把小脑
夏天被虫咬,可不止红肿瘙痒,严重的能毁容、致命进入夏季以来,各种昆
来为大家解答以上的问题。最后一艘潜艇电影国语版百度云,最后一艘潜艇
梅西显然也是遭到了巴萨方面的戏耍,这也让加泰本地媒体都看不下去了。
本文内容是由小编为大家搜集关于中国银行信用卡中心,以及中国银行信用
1、一定要hkg里字幕组的吗 做糟糕物的字幕组很多啊
生肖属狗的女子,6月11日-6月19日,财运大爆发,横财连发,钞票如雨,
大家好,我3y啊。由于去重逻辑重构了几次,好多股东直呼看不懂,于是我
《人民公安报》刊发丨道县破获部督特大危害国家重点保护植物案【编者按
1、象牙果,别名象牙椰子,主要生长在南美赤道附近的一种名为TAGUA椰子
我叫肖遥,是一个生活在西藏昌都的骑行爱好者。国道318是中国第二长国
X 关闭
X 关闭