SongCreator: Geração Universal de Músicas Baseada em Letras
SongCreator: Lyrics-based Universal Song Generation
September 9, 2024
Autores: Shun Lei, Yixuan Zhou, Boshi Tang, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu, Helen Meng
cs.AI
Resumo
A música é uma parte integral da cultura humana, incorporando a inteligência e criatividade humanas, das quais as canções compõem uma parte essencial. Enquanto vários aspectos da geração de músicas foram explorados por trabalhos anteriores, como a voz cantada, a composição vocal e o arranjo instrumental, etc., gerar músicas com vocais e acompanhamento a partir de letras continua sendo um desafio significativo, dificultando a aplicação de modelos de geração de música no mundo real. Nesse sentido, propomos o SongCreator, um sistema de geração de músicas projetado para enfrentar esse desafio. O modelo apresenta dois designs inovadores: um modelo de linguagem de dupla sequência (DSLM) meticulosamente projetado para capturar as informações de vocais e acompanhamento para a geração de músicas, e uma estratégia adicional de máscara de atenção para o DSLM, que permite que nosso modelo compreenda, gere e edite músicas, tornando-o adequado para várias tarefas de geração relacionadas a músicas. Experimentos extensos demonstram a eficácia do SongCreator ao alcançar desempenhos de ponta ou competitivos em todas as oito tarefas. Notavelmente, ele supera significativamente trabalhos anteriores em letras-para-música e letras-para-vocais. Além disso, é capaz de controlar independentemente as condições acústicas dos vocais e do acompanhamento na música gerada por meio de diferentes prompts, exibindo sua aplicabilidade potencial. Nossas amostras estão disponíveis em https://songcreator.github.io/.
English
Music is an integral part of human culture, embodying human intelligence and
creativity, of which songs compose an essential part. While various aspects of
song generation have been explored by previous works, such as singing voice,
vocal composition and instrumental arrangement, etc., generating songs with
both vocals and accompaniment given lyrics remains a significant challenge,
hindering the application of music generation models in the real world. In this
light, we propose SongCreator, a song-generation system designed to tackle this
challenge. The model features two novel designs: a meticulously designed
dual-sequence language model (DSLM) to capture the information of vocals and
accompaniment for song generation, and an additional attention mask strategy
for DSLM, which allows our model to understand, generate and edit songs, making
it suitable for various song-related generation tasks. Extensive experiments
demonstrate the effectiveness of SongCreator by achieving state-of-the-art or
competitive performances on all eight tasks. Notably, it surpasses previous
works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally,
it is able to independently control the acoustic conditions of the vocals and
accompaniment in the generated song through different prompts, exhibiting its
potential applicability. Our samples are available at
https://songcreator.github.io/.Summary
AI-Generated Summary