Auto-Regressive vs. Flow-Matching: Eine vergleichende Studie zu Modellierungsparadigmen für die Text-zu-Musik-Generierung
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
Autoren: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Musik-Generierung haben es Modellen ermöglicht, hochwertige Musiksegmente, vollständige Kompositionen zu synthetisieren und sogar auf fein abgestimmte Steuersignale, wie z. B. Akkordfolgen, zu reagieren. State-of-the-Art (SOTA)-Systeme unterscheiden sich erheblich in vielen Dimensionen, wie Trainingsdatensätzen, Modellierungsparadigmen und architektonischen Entscheidungen. Diese Vielfalt erschwert die faire Bewertung von Modellen und die Identifizierung der Designentscheidungen, die die Leistung am meisten beeinflussen. Während Faktoren wie Daten und Architektur wichtig sind, konzentrieren wir uns in dieser Studie ausschließlich auf das Modellierungsparadigma. Wir führen eine systematische empirische Analyse durch, um dessen Auswirkungen zu isolieren, und bieten Einblicke in damit verbundene Kompromisse und emergente Verhaltensweisen, die zukünftige Text-zu-Musik-Generierungssysteme leiten können. Insbesondere vergleichen wir die beiden wohl häufigsten Modellierungsparadigmen: Auto-regressive Dekodierung und Conditional Flow-Matching. Wir führen einen kontrollierten Vergleich durch, indem wir alle Modelle von Grund auf mit identischen Datensätzen, Trainingskonfigurationen und ähnlichen Backbone-Architekturen trainieren. Die Leistung wird über mehrere Achsen hinweg bewertet, einschließlich der Generierungsqualität, der Robustheit gegenüber Inferenzkonfigurationen, der Skalierbarkeit, der Einhaltung sowohl textueller als auch zeitlich ausgerichteter Konditionierung und der Bearbeitungsfähigkeiten in Form von Audio-Inpainting. Diese vergleichende Studie beleuchtet die unterschiedlichen Stärken und Grenzen jedes Paradigmas und bietet umsetzbare Erkenntnisse, die zukünftige architektonische und Trainingsentscheidungen im sich entwickelnden Bereich der Text-zu-Musik-Generierung beeinflussen können. Audio-Beispiele sind verfügbar unter: https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM