Auto-Regressivo vs Flow-Matching: Um Estudo Comparativo de Paradigmas de Modelagem para Geração de Texto para Música
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
Autores: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
Resumo
Os recentes avanços na geração de texto para música permitiram que modelos sintetizassem segmentos musicais de alta qualidade, composições completas e até respondessem a sinais de controle refinados, como progressões de acordes. Os sistemas state-of-the-art (SOTA) diferem significativamente em várias dimensões, como conjuntos de dados de treinamento, paradigmas de modelagem e escolhas arquitetônicas. Essa diversidade complica os esforços para avaliar os modelos de forma justa e identificar quais escolhas de design mais influenciam o desempenho. Embora fatores como dados e arquitetura sejam importantes, neste estudo focamos exclusivamente no paradigma de modelagem. Realizamos uma análise empírica sistemática para isolar seus efeitos, oferecendo insights sobre trade-offs associados e comportamentos emergentes que podem orientar futuros sistemas de geração de texto para música. Especificamente, comparamos os dois paradigmas de modelagem mais comuns: decodificação Auto-Regressiva e Conditional Flow-Matching. Realizamos uma comparação controlada treinando todos os modelos do zero usando conjuntos de dados idênticos, configurações de treinamento e arquiteturas de backbone semelhantes. O desempenho é avaliado em múltiplos eixos, incluindo qualidade de geração, robustez a configurações de inferência, escalabilidade, aderência a condicionamentos textuais e temporalmente alinhados, e capacidades de edição na forma de inpainting de áudio. Este estudo comparativo revela pontos fortes e limitações distintos de cada paradigma, fornecendo insights acionáveis que podem informar futuras decisões arquitetônicas e de treinamento no cenário em evolução da geração de texto para música. Exemplos de áudio estão disponíveis em: https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM