SongCreator: Generazione Universale di Canzoni basata sui Testi

Abstract

La musica è parte integrante della cultura umana, incarnando l'intelligenza e la creatività umane, di cui le canzoni costituiscono una parte essenziale. Mentre vari aspetti della generazione di brani musicali sono stati esplorati da lavori precedenti, come la voce cantante, la composizione vocale e l'arrangiamento strumentale, generare canzoni con sia la voce che l'accompagnamento dati i testi rimane una sfida significativa, ostacolando l'applicazione dei modelli di generazione musicale nel mondo reale. In questo contesto, proponiamo SongCreator, un sistema di generazione di canzoni progettato per affrontare questa sfida. Il modello presenta due design innovativi: un modello linguistico a doppia sequenza (DSLM) attentamente progettato per catturare le informazioni della voce e dell'accompagnamento per la generazione di canzoni, e una strategia aggiuntiva di maschera di attenzione per DSLM, che consente al nostro modello di comprendere, generare e modificare canzoni, rendendolo adatto a varie attività di generazione legate alle canzoni. Estesi esperimenti dimostrano l'efficacia di SongCreator raggiungendo prestazioni all'avanguardia o competitive in tutte e otto le attività. In particolare, supera di gran lunga i lavori precedenti nella trasformazione di testi in canzoni e testi in voci. Inoltre, è in grado di controllare indipendentemente le condizioni acustiche della voce e dell'accompagnamento nella canzone generata attraverso prompt diversi, mostrando la sua potenziale applicabilità. I nostri campioni sono disponibili su https://songcreator.github.io/.

English

Music is an integral part of human culture, embodying human intelligence and creativity, of which songs compose an essential part. While various aspects of song generation have been explored by previous works, such as singing voice, vocal composition and instrumental arrangement, etc., generating songs with both vocals and accompaniment given lyrics remains a significant challenge, hindering the application of music generation models in the real world. In this light, we propose SongCreator, a song-generation system designed to tackle this challenge. The model features two novel designs: a meticulously designed dual-sequence language model (DSLM) to capture the information of vocals and accompaniment for song generation, and an additional attention mask strategy for DSLM, which allows our model to understand, generate and edit songs, making it suitable for various song-related generation tasks. Extensive experiments demonstrate the effectiveness of SongCreator by achieving state-of-the-art or competitive performances on all eight tasks. Notably, it surpasses previous works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally, it is able to independently control the acoustic conditions of the vocals and accompaniment in the generated song through different prompts, exhibiting its potential applicability. Our samples are available at https://songcreator.github.io/.

SongCreator: Generazione Universale di Canzoni basata sui Testi

SongCreator: Lyrics-based Universal Song Generation

Abstract

Summary

Support

Support