SongCreator: Geração Universal de Músicas Baseada em Letras

Resumo

A música é uma parte integral da cultura humana, incorporando a inteligência e criatividade humanas, das quais as canções compõem uma parte essencial. Enquanto vários aspectos da geração de músicas foram explorados por trabalhos anteriores, como a voz cantada, a composição vocal e o arranjo instrumental, etc., gerar músicas com vocais e acompanhamento a partir de letras continua sendo um desafio significativo, dificultando a aplicação de modelos de geração de música no mundo real. Nesse sentido, propomos o SongCreator, um sistema de geração de músicas projetado para enfrentar esse desafio. O modelo apresenta dois designs inovadores: um modelo de linguagem de dupla sequência (DSLM) meticulosamente projetado para capturar as informações de vocais e acompanhamento para a geração de músicas, e uma estratégia adicional de máscara de atenção para o DSLM, que permite que nosso modelo compreenda, gere e edite músicas, tornando-o adequado para várias tarefas de geração relacionadas a músicas. Experimentos extensos demonstram a eficácia do SongCreator ao alcançar desempenhos de ponta ou competitivos em todas as oito tarefas. Notavelmente, ele supera significativamente trabalhos anteriores em letras-para-música e letras-para-vocais. Além disso, é capaz de controlar independentemente as condições acústicas dos vocais e do acompanhamento na música gerada por meio de diferentes prompts, exibindo sua aplicabilidade potencial. Nossas amostras estão disponíveis em https://songcreator.github.io/.

English

Music is an integral part of human culture, embodying human intelligence and creativity, of which songs compose an essential part. While various aspects of song generation have been explored by previous works, such as singing voice, vocal composition and instrumental arrangement, etc., generating songs with both vocals and accompaniment given lyrics remains a significant challenge, hindering the application of music generation models in the real world. In this light, we propose SongCreator, a song-generation system designed to tackle this challenge. The model features two novel designs: a meticulously designed dual-sequence language model (DSLM) to capture the information of vocals and accompaniment for song generation, and an additional attention mask strategy for DSLM, which allows our model to understand, generate and edit songs, making it suitable for various song-related generation tasks. Extensive experiments demonstrate the effectiveness of SongCreator by achieving state-of-the-art or competitive performances on all eight tasks. Notably, it surpasses previous works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally, it is able to independently control the acoustic conditions of the vocals and accompaniment in the generated song through different prompts, exhibiting its potential applicability. Our samples are available at https://songcreator.github.io/.

SongCreator: Geração Universal de Músicas Baseada em Letras

SongCreator: Lyrics-based Universal Song Generation

Resumo

Support