Авторегрессия против Flow-Matching: сравнительное исследование подходов к моделированию в задаче генерации музыки из текста
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
Авторы: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
Аннотация
Последние достижения в области генерации музыки из текста позволили моделям синтезировать высококачественные музыкальные фрагменты, полноценные композиции и даже реагировать на детализированные управляющие сигналы, такие как последовательности аккордов. Современные системы (State-of-the-Art, SOTA) значительно различаются по многим параметрам, включая наборы данных для обучения, парадигмы моделирования и архитектурные решения. Это разнообразие затрудняет объективную оценку моделей и определение того, какие конструктивные решения наиболее существенно влияют на производительность. Хотя такие факторы, как данные и архитектура, важны, в данном исследовании мы сосредоточиваемся исключительно на парадигме моделирования. Мы проводим систематический эмпирический анализ, чтобы изолировать её влияние, предлагая понимание связанных компромиссов и возникающих поведений, которые могут направлять разработку будущих систем генерации музыки из текста. В частности, мы сравниваем две, вероятно, наиболее распространённые парадигмы моделирования: авторегрессивное декодирование и условное согласование потоков (Conditional Flow-Matching). Мы проводим контролируемое сравнение, обучая все модели с нуля на идентичных наборах данных, с одинаковыми конфигурациями обучения и схожими базовыми архитектурами. Производительность оценивается по нескольким критериям, включая качество генерации, устойчивость к конфигурациям вывода, масштабируемость, соответствие текстовым и временным условиям, а также возможности редактирования в форме аудио-инпейнтинга. Это сравнительное исследование выявляет уникальные преимущества и ограничения каждой парадигмы, предоставляя практические рекомендации, которые могут повлиять на будущие архитектурные и обучающие решения в развивающейся области генерации музыки из текста. Примеры аудиосэмплов доступны по ссылке: https://huggingface.co/spaces/ortal1602/ARvsFM.
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM