JAM: Een Miniatuur Flow-gebaseerde Liedgenerator met Fijnmazige Beheersbaarheid en Esthetische Afstemming
JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment
July 28, 2025
Auteurs: Renhang Liu, Chia-Yu Hung, Navonil Majumder, Taylor Gautreaux, Amir Ali Bagherzadeh, Chuan Li, Dorien Herremans, Soujanya Poria
cs.AI
Samenvatting
Diffusie- en flow-matchingmodellen hebben de afgelopen tijd een revolutie teweeggebracht in automatische tekst-naar-audiogeneratie. Deze modellen zijn steeds beter in staat om hoogwaardige en nauwkeurige audio-uitvoer te genereren die spraak en akoestische gebeurtenissen vastleggen. Er is echter nog veel ruimte voor verbetering in creatieve audiogeneratie die voornamelijk muziek en liedjes omvat. Recente open lyrics-to-song-modellen, zoals DiffRhythm, ACE-Step en LeVo, hebben een acceptabele standaard gezet in automatische liedjesgeneratie voor recreatief gebruik. Deze modellen missen echter de fijnmazige woordniveau-controleerbaarheid die muzikanten vaak wensen in hun workflows. Voor zover wij weten, is ons op flow-matching gebaseerde JAM de eerste poging om woordniveau-timing en -duurcontrole toe te voegen in liedjesgeneratie, waardoor fijnmazige vocale controle mogelijk wordt. Om de kwaliteit van gegenereerde liedjes te verbeteren en beter af te stemmen op menselijke voorkeuren, implementeren we esthetische afstemming via Direct Preference Optimization, waarbij het model iteratief wordt verfijnd met behulp van een synthetische dataset, waardoor handmatige data-annotaties overbodig worden. Bovendien streven we ernaar om de evaluatie van dergelijke lyrics-to-song-modellen te standaardiseren via ons openbare evaluatiedataset JAME. We tonen aan dat JAM de bestaande modellen overtreft wat betreft de muziekspecifieke attributen.
English
Diffusion and flow-matching models have revolutionized automatic
text-to-audio generation in recent times. These models are increasingly capable
of generating high quality and faithful audio outputs capturing to speech and
acoustic events. However, there is still much room for improvement in creative
audio generation that primarily involves music and songs. Recent open
lyrics-to-song models, such as, DiffRhythm, ACE-Step, and LeVo, have set an
acceptable standard in automatic song generation for recreational use. However,
these models lack fine-grained word-level controllability often desired by
musicians in their workflows. To the best of our knowledge, our
flow-matching-based JAM is the first effort toward endowing word-level timing
and duration control in song generation, allowing fine-grained vocal control.
To enhance the quality of generated songs to better align with human
preferences, we implement aesthetic alignment through Direct Preference
Optimization, which iteratively refines the model using a synthetic dataset,
eliminating the need or manual data annotations. Furthermore, we aim to
standardize the evaluation of such lyrics-to-song models through our public
evaluation dataset JAME. We show that JAM outperforms the existing models in
terms of the music-specific attributes.