Авторегрессия против Flow-Matching: сравнительное исследование подходов к моделированию в задаче генерации музыки из текста

Аннотация

Последние достижения в области генерации музыки из текста позволили моделям синтезировать высококачественные музыкальные фрагменты, полноценные композиции и даже реагировать на детализированные управляющие сигналы, такие как последовательности аккордов. Современные системы (State-of-the-Art, SOTA) значительно различаются по многим параметрам, включая наборы данных для обучения, парадигмы моделирования и архитектурные решения. Это разнообразие затрудняет объективную оценку моделей и определение того, какие конструктивные решения наиболее существенно влияют на производительность. Хотя такие факторы, как данные и архитектура, важны, в данном исследовании мы сосредоточиваемся исключительно на парадигме моделирования. Мы проводим систематический эмпирический анализ, чтобы изолировать её влияние, предлагая понимание связанных компромиссов и возникающих поведений, которые могут направлять разработку будущих систем генерации музыки из текста. В частности, мы сравниваем две, вероятно, наиболее распространённые парадигмы моделирования: авторегрессивное декодирование и условное согласование потоков (Conditional Flow-Matching). Мы проводим контролируемое сравнение, обучая все модели с нуля на идентичных наборах данных, с одинаковыми конфигурациями обучения и схожими базовыми архитектурами. Производительность оценивается по нескольким критериям, включая качество генерации, устойчивость к конфигурациям вывода, масштабируемость, соответствие текстовым и временным условиям, а также возможности редактирования в форме аудио-инпейнтинга. Это сравнительное исследование выявляет уникальные преимущества и ограничения каждой парадигмы, предоставляя практические рекомендации, которые могут повлиять на будущие архитектурные и обучающие решения в развивающейся области генерации музыки из текста. Примеры аудиосэмплов доступны по ссылке: https://huggingface.co/spaces/ortal1602/ARvsFM.

English

Recent progress in text-to-music generation has enabled models to synthesize high-quality musical segments, full compositions, and even respond to fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA) systems differ significantly across many dimensions, such as training datasets, modeling paradigms, and architectural choices. This diversity complicates efforts to evaluate models fairly and pinpoint which design choices most influence performance. While factors like data and architecture are important, in this study we focus exclusively on the modeling paradigm. We conduct a systematic empirical analysis to isolate its effects, offering insights into associated trade-offs and emergent behaviors that can guide future text-to-music generation systems. Specifically, we compare the two arguably most common modeling paradigms: Auto-Regressive decoding and Conditional Flow-Matching. We conduct a controlled comparison by training all models from scratch using identical datasets, training configurations, and similar backbone architectures. Performance is evaluated across multiple axes, including generation quality, robustness to inference configurations, scalability, adherence to both textual and temporally aligned conditioning, and editing capabilities in the form of audio inpainting. This comparative study sheds light on distinct strengths and limitations of each paradigm, providing actionable insights that can inform future architectural and training decisions in the evolving landscape of text-to-music generation. Audio sampled examples are available at: https://huggingface.co/spaces/ortal1602/ARvsFM

Авторегрессия против Flow-Matching: сравнительное исследование подходов к моделированию в задаче генерации музыки из текста

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation

Аннотация

Support