Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

Résumé

Les récents progrès dans la génération de musique à partir de texte ont permis aux modèles de synthétiser des segments musicaux de haute qualité, des compositions complètes, et même de répondre à des signaux de contrôle précis, comme des progressions d'accords. Les systèmes à l'état de l'art (SOTA) diffèrent considérablement sur de nombreux aspects, tels que les ensembles de données d'entraînement, les paradigmes de modélisation et les choix architecturaux. Cette diversité complique les efforts pour évaluer les modèles de manière équitable et identifier les choix de conception qui influencent le plus les performances. Bien que des facteurs comme les données et l'architecture soient importants, dans cette étude, nous nous concentrons exclusivement sur le paradigme de modélisation. Nous menons une analyse empirique systématique pour isoler ses effets, offrant des insights sur les compromis associés et les comportements émergents qui peuvent guider les futurs systèmes de génération de musique à partir de texte. Plus précisément, nous comparons les deux paradigmes de modélisation les plus courants : le décodage auto-régressif et le Conditional Flow-Matching. Nous effectuons une comparaison contrôlée en entraînant tous les modèles à partir de zéro en utilisant des ensembles de données identiques, des configurations d'entraînement similaires et des architectures de base comparables. Les performances sont évaluées sur plusieurs axes, incluant la qualité de la génération, la robustesse aux configurations d'inférence, l'évolutivité, l'adhésion aux conditionnements textuels et temporellement alignés, et les capacités d'édition sous forme de réparation audio. Cette étude comparative met en lumière les forces et les limites distinctes de chaque paradigme, fournissant des insights exploitables qui peuvent éclairer les futures décisions architecturales et d'entraînement dans le paysage en évolution de la génération de musique à partir de texte. Des exemples audio sont disponibles à l'adresse suivante : https://huggingface.co/spaces/ortal1602/ARvsFM

English

Recent progress in text-to-music generation has enabled models to synthesize high-quality musical segments, full compositions, and even respond to fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA) systems differ significantly across many dimensions, such as training datasets, modeling paradigms, and architectural choices. This diversity complicates efforts to evaluate models fairly and pinpoint which design choices most influence performance. While factors like data and architecture are important, in this study we focus exclusively on the modeling paradigm. We conduct a systematic empirical analysis to isolate its effects, offering insights into associated trade-offs and emergent behaviors that can guide future text-to-music generation systems. Specifically, we compare the two arguably most common modeling paradigms: Auto-Regressive decoding and Conditional Flow-Matching. We conduct a controlled comparison by training all models from scratch using identical datasets, training configurations, and similar backbone architectures. Performance is evaluated across multiple axes, including generation quality, robustness to inference configurations, scalability, adherence to both textual and temporally aligned conditioning, and editing capabilities in the form of audio inpainting. This comparative study sheds light on distinct strengths and limitations of each paradigm, providing actionable insights that can inform future architectural and training decisions in the evolving landscape of text-to-music generation. Audio sampled examples are available at: https://huggingface.co/spaces/ortal1602/ARvsFM