ChatPaper.aiChatPaper

MusiConGen: Control de Ritmo y Acordes para la Generación de Texto a Música basada en Transformadores

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

July 21, 2024
Autores: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Resumen

Los modelos existentes de texto a música pueden producir audio de alta calidad con gran diversidad. Sin embargo, las indicaciones textuales por sí solas no pueden controlar con precisión las características musicales temporales como acordes y ritmo de la música generada. Para abordar este desafío, presentamos MusiConGen, un modelo de texto a música basado en Transformer condicionado temporalmente que se basa en el marco preentrenado de MusicGen. Nuestra innovación radica en un mecanismo eficiente de ajuste fino, diseñado para GPUs de consumo, que integra ritmo y acordes extraídos automáticamente como señal de condición. Durante la inferencia, la condición puede ser características musicales extraídas de una señal de audio de referencia, o una secuencia de acordes simbólicos definida por el usuario, BPM e indicaciones textuales. Nuestra evaluación de rendimiento en dos conjuntos de datos -- uno derivado de características extraídas y otro de entradas creadas por el usuario -- demuestra que MusiConGen puede generar pistas de acompañamiento realistas que se ajustan bien a las condiciones especificadas. Publicamos el código y los puntos de control del modelo en código abierto y proporcionamos ejemplos de audio en línea, https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.

Summary

AI-Generated Summary

PDF92November 28, 2024