Auto-Regressivo vs Flow-Matching: uno studio comparativo dei paradigmi di modellazione per la generazione di musica da testo

Abstract

I recenti progressi nella generazione di musica da testo hanno permesso ai modelli di sintetizzare segmenti musicali di alta qualità, composizioni complete e persino di rispondere a segnali di controllo granulari, come le progressioni di accordi. I sistemi all'avanguardia (SOTA) differiscono significativamente in molte dimensioni, come i dataset di addestramento, i paradigmi di modellazione e le scelte architetturali. Questa diversità complica gli sforzi per valutare i modelli in modo equo e identificare quali scelte progettuali influenzano maggiormente le prestazioni. Sebbene fattori come i dati e l'architettura siano importanti, in questo studio ci concentriamo esclusivamente sul paradigma di modelizzazione. Eseguiamo un'analisi empirica sistematica per isolare i suoi effetti, offrendo approfondimenti sui compromessi associati e sui comportamenti emergenti che possono guidare i futuri sistemi di generazione di musica da testo. In particolare, confrontiamo i due paradigmi di modellazione probabilmente più comuni: il decoding Auto-Regressivo e il Conditional Flow-Matching. Eseguiamo un confronto controllato addestrando tutti i modelli da zero utilizzando dataset identici, configurazioni di addestramento simili e architetture di backbone simili. Le prestazioni vengono valutate su più assi, tra cui la qualità della generazione, la robustezza alle configurazioni di inferenza, la scalabilità, l'aderenza sia al condizionamento testuale che a quello temporalmente allineato, e le capacità di editing sotto forma di inpainting audio. Questo studio comparativo mette in luce i punti di forza e le limitazioni distintive di ciascun paradigma, fornendo approfondimenti pratici che possono informare le future decisioni architetturali e di addestramento nel panorama in evoluzione della generazione di musica da testo. Esempi audio campionati sono disponibili all'indirizzo: https://huggingface.co/spaces/ortal1602/ARvsFM

English

Recent progress in text-to-music generation has enabled models to synthesize high-quality musical segments, full compositions, and even respond to fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA) systems differ significantly across many dimensions, such as training datasets, modeling paradigms, and architectural choices. This diversity complicates efforts to evaluate models fairly and pinpoint which design choices most influence performance. While factors like data and architecture are important, in this study we focus exclusively on the modeling paradigm. We conduct a systematic empirical analysis to isolate its effects, offering insights into associated trade-offs and emergent behaviors that can guide future text-to-music generation systems. Specifically, we compare the two arguably most common modeling paradigms: Auto-Regressive decoding and Conditional Flow-Matching. We conduct a controlled comparison by training all models from scratch using identical datasets, training configurations, and similar backbone architectures. Performance is evaluated across multiple axes, including generation quality, robustness to inference configurations, scalability, adherence to both textual and temporally aligned conditioning, and editing capabilities in the form of audio inpainting. This comparative study sheds light on distinct strengths and limitations of each paradigm, providing actionable insights that can inform future architectural and training decisions in the evolving landscape of text-to-music generation. Audio sampled examples are available at: https://huggingface.co/spaces/ortal1602/ARvsFM

Auto-Regressivo vs Flow-Matching: uno studio comparativo dei paradigmi di modellazione per la generazione di musica da testo

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation

Abstract

Support