SongCreator: Generazione Universale di Canzoni basata sui Testi
SongCreator: Lyrics-based Universal Song Generation
September 9, 2024
Autori: Shun Lei, Yixuan Zhou, Boshi Tang, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu, Helen Meng
cs.AI
Abstract
La musica è parte integrante della cultura umana, incarnando l'intelligenza e la creatività umane, di cui le canzoni costituiscono una parte essenziale. Mentre vari aspetti della generazione di brani musicali sono stati esplorati da lavori precedenti, come la voce cantante, la composizione vocale e l'arrangiamento strumentale, generare canzoni con sia la voce che l'accompagnamento dati i testi rimane una sfida significativa, ostacolando l'applicazione dei modelli di generazione musicale nel mondo reale. In questo contesto, proponiamo SongCreator, un sistema di generazione di canzoni progettato per affrontare questa sfida. Il modello presenta due design innovativi: un modello linguistico a doppia sequenza (DSLM) attentamente progettato per catturare le informazioni della voce e dell'accompagnamento per la generazione di canzoni, e una strategia aggiuntiva di maschera di attenzione per DSLM, che consente al nostro modello di comprendere, generare e modificare canzoni, rendendolo adatto a varie attività di generazione legate alle canzoni. Estesi esperimenti dimostrano l'efficacia di SongCreator raggiungendo prestazioni all'avanguardia o competitive in tutte e otto le attività. In particolare, supera di gran lunga i lavori precedenti nella trasformazione di testi in canzoni e testi in voci. Inoltre, è in grado di controllare indipendentemente le condizioni acustiche della voce e dell'accompagnamento nella canzone generata attraverso prompt diversi, mostrando la sua potenziale applicabilità. I nostri campioni sono disponibili su https://songcreator.github.io/.
English
Music is an integral part of human culture, embodying human intelligence and
creativity, of which songs compose an essential part. While various aspects of
song generation have been explored by previous works, such as singing voice,
vocal composition and instrumental arrangement, etc., generating songs with
both vocals and accompaniment given lyrics remains a significant challenge,
hindering the application of music generation models in the real world. In this
light, we propose SongCreator, a song-generation system designed to tackle this
challenge. The model features two novel designs: a meticulously designed
dual-sequence language model (DSLM) to capture the information of vocals and
accompaniment for song generation, and an additional attention mask strategy
for DSLM, which allows our model to understand, generate and edit songs, making
it suitable for various song-related generation tasks. Extensive experiments
demonstrate the effectiveness of SongCreator by achieving state-of-the-art or
competitive performances on all eight tasks. Notably, it surpasses previous
works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally,
it is able to independently control the acoustic conditions of the vocals and
accompaniment in the generated song through different prompts, exhibiting its
potential applicability. Our samples are available at
https://songcreator.github.io/.Summary
AI-Generated Summary