JAM: Un Pequeño Generador de Canciones Basado en Flujos con Controlabilidad de Grano Fino y Alineación Estética
JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment
July 28, 2025
Autores: Renhang Liu, Chia-Yu Hung, Navonil Majumder, Taylor Gautreaux, Amir Ali Bagherzadeh, Chuan Li, Dorien Herremans, Soujanya Poria
cs.AI
Resumen
Los modelos de difusión y emparejamiento de flujo han revolucionado la generación automática de texto a audio en los últimos tiempos. Estos modelos son cada vez más capaces de generar salidas de audio de alta calidad y fidelidad que capturan el habla y eventos acústicos. Sin embargo, aún hay mucho margen de mejora en la generación creativa de audio que involucra principalmente música y canciones. Modelos recientes de letra a canción de código abierto, como DiffRhythm, ACE-Step y LeVo, han establecido un estándar aceptable en la generación automática de canciones para uso recreativo. No obstante, estos modelos carecen de la capacidad de control fino a nivel de palabra que los músicos suelen desear en sus flujos de trabajo. Hasta donde sabemos, nuestro modelo JAM basado en emparejamiento de flujo es el primer esfuerzo hacia la incorporación de control de tiempo y duración a nivel de palabra en la generación de canciones, permitiendo un control vocal de gran precisión. Para mejorar la calidad de las canciones generadas y alinearlas mejor con las preferencias humanas, implementamos la alineación estética mediante la Optimización Directa de Preferencias, que refina iterativamente el modelo utilizando un conjunto de datos sintéticos, eliminando la necesidad de anotaciones manuales de datos. Además, nuestro objetivo es estandarizar la evaluación de estos modelos de letra a canción a través de nuestro conjunto de datos de evaluación pública JAME. Demostramos que JAM supera a los modelos existentes en términos de atributos específicos de la música.
English
Diffusion and flow-matching models have revolutionized automatic
text-to-audio generation in recent times. These models are increasingly capable
of generating high quality and faithful audio outputs capturing to speech and
acoustic events. However, there is still much room for improvement in creative
audio generation that primarily involves music and songs. Recent open
lyrics-to-song models, such as, DiffRhythm, ACE-Step, and LeVo, have set an
acceptable standard in automatic song generation for recreational use. However,
these models lack fine-grained word-level controllability often desired by
musicians in their workflows. To the best of our knowledge, our
flow-matching-based JAM is the first effort toward endowing word-level timing
and duration control in song generation, allowing fine-grained vocal control.
To enhance the quality of generated songs to better align with human
preferences, we implement aesthetic alignment through Direct Preference
Optimization, which iteratively refines the model using a synthetic dataset,
eliminating the need or manual data annotations. Furthermore, we aim to
standardize the evaluation of such lyrics-to-song models through our public
evaluation dataset JAME. We show that JAM outperforms the existing models in
terms of the music-specific attributes.