Auto-Regressivo vs Flow-Matching: uno studio comparativo dei paradigmi di modellazione per la generazione di musica da testo
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
Autori: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
Abstract
I recenti progressi nella generazione di musica da testo hanno permesso ai modelli di sintetizzare segmenti musicali di alta qualità, composizioni complete e persino di rispondere a segnali di controllo granulari, come le progressioni di accordi. I sistemi all'avanguardia (SOTA) differiscono significativamente in molte dimensioni, come i dataset di addestramento, i paradigmi di modellazione e le scelte architetturali. Questa diversità complica gli sforzi per valutare i modelli in modo equo e identificare quali scelte progettuali influenzano maggiormente le prestazioni. Sebbene fattori come i dati e l'architettura siano importanti, in questo studio ci concentriamo esclusivamente sul paradigma di modelizzazione. Eseguiamo un'analisi empirica sistematica per isolare i suoi effetti, offrendo approfondimenti sui compromessi associati e sui comportamenti emergenti che possono guidare i futuri sistemi di generazione di musica da testo. In particolare, confrontiamo i due paradigmi di modellazione probabilmente più comuni: il decoding Auto-Regressivo e il Conditional Flow-Matching. Eseguiamo un confronto controllato addestrando tutti i modelli da zero utilizzando dataset identici, configurazioni di addestramento simili e architetture di backbone simili. Le prestazioni vengono valutate su più assi, tra cui la qualità della generazione, la robustezza alle configurazioni di inferenza, la scalabilità, l'aderenza sia al condizionamento testuale che a quello temporalmente allineato, e le capacità di editing sotto forma di inpainting audio. Questo studio comparativo mette in luce i punti di forza e le limitazioni distintive di ciascun paradigma, fornendo approfondimenti pratici che possono informare le future decisioni architetturali e di addestramento nel panorama in evoluzione della generazione di musica da testo. Esempi audio campionati sono disponibili all'indirizzo: https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM