Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
Auteurs: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
Résumé
Les récents progrès dans la génération de musique à partir de texte ont permis aux modèles de synthétiser des segments musicaux de haute qualité, des compositions complètes, et même de répondre à des signaux de contrôle précis, comme des progressions d'accords. Les systèmes à l'état de l'art (SOTA) diffèrent considérablement sur de nombreux aspects, tels que les ensembles de données d'entraînement, les paradigmes de modélisation et les choix architecturaux. Cette diversité complique les efforts pour évaluer les modèles de manière équitable et identifier les choix de conception qui influencent le plus les performances. Bien que des facteurs comme les données et l'architecture soient importants, dans cette étude, nous nous concentrons exclusivement sur le paradigme de modélisation. Nous menons une analyse empirique systématique pour isoler ses effets, offrant des insights sur les compromis associés et les comportements émergents qui peuvent guider les futurs systèmes de génération de musique à partir de texte. Plus précisément, nous comparons les deux paradigmes de modélisation les plus courants : le décodage auto-régressif et le Conditional Flow-Matching. Nous effectuons une comparaison contrôlée en entraînant tous les modèles à partir de zéro en utilisant des ensembles de données identiques, des configurations d'entraînement similaires et des architectures de base comparables. Les performances sont évaluées sur plusieurs axes, incluant la qualité de la génération, la robustesse aux configurations d'inférence, l'évolutivité, l'adhésion aux conditionnements textuels et temporellement alignés, et les capacités d'édition sous forme de réparation audio. Cette étude comparative met en lumière les forces et les limites distinctes de chaque paradigme, fournissant des insights exploitables qui peuvent éclairer les futures décisions architecturales et d'entraînement dans le paysage en évolution de la génération de musique à partir de texte. Des exemples audio sont disponibles à l'adresse suivante : https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM