ChatPaper.aiChatPaper

Auto-Regressivo vs Flow-Matching: Um Estudo Comparativo de Paradigmas de Modelagem para Geração de Texto para Música

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation

June 10, 2025
Autores: Or Tal, Felix Kreuk, Yossi Adi
cs.AI

Resumo

Os recentes avanços na geração de texto para música permitiram que modelos sintetizassem segmentos musicais de alta qualidade, composições completas e até respondessem a sinais de controle refinados, como progressões de acordes. Os sistemas state-of-the-art (SOTA) diferem significativamente em várias dimensões, como conjuntos de dados de treinamento, paradigmas de modelagem e escolhas arquitetônicas. Essa diversidade complica os esforços para avaliar os modelos de forma justa e identificar quais escolhas de design mais influenciam o desempenho. Embora fatores como dados e arquitetura sejam importantes, neste estudo focamos exclusivamente no paradigma de modelagem. Realizamos uma análise empírica sistemática para isolar seus efeitos, oferecendo insights sobre trade-offs associados e comportamentos emergentes que podem orientar futuros sistemas de geração de texto para música. Especificamente, comparamos os dois paradigmas de modelagem mais comuns: decodificação Auto-Regressiva e Conditional Flow-Matching. Realizamos uma comparação controlada treinando todos os modelos do zero usando conjuntos de dados idênticos, configurações de treinamento e arquiteturas de backbone semelhantes. O desempenho é avaliado em múltiplos eixos, incluindo qualidade de geração, robustez a configurações de inferência, escalabilidade, aderência a condicionamentos textuais e temporalmente alinhados, e capacidades de edição na forma de inpainting de áudio. Este estudo comparativo revela pontos fortes e limitações distintos de cada paradigma, fornecendo insights acionáveis que podem informar futuras decisões arquitetônicas e de treinamento no cenário em evolução da geração de texto para música. Exemplos de áudio estão disponíveis em: https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize high-quality musical segments, full compositions, and even respond to fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA) systems differ significantly across many dimensions, such as training datasets, modeling paradigms, and architectural choices. This diversity complicates efforts to evaluate models fairly and pinpoint which design choices most influence performance. While factors like data and architecture are important, in this study we focus exclusively on the modeling paradigm. We conduct a systematic empirical analysis to isolate its effects, offering insights into associated trade-offs and emergent behaviors that can guide future text-to-music generation systems. Specifically, we compare the two arguably most common modeling paradigms: Auto-Regressive decoding and Conditional Flow-Matching. We conduct a controlled comparison by training all models from scratch using identical datasets, training configurations, and similar backbone architectures. Performance is evaluated across multiple axes, including generation quality, robustness to inference configurations, scalability, adherence to both textual and temporally aligned conditioning, and editing capabilities in the form of audio inpainting. This comparative study sheds light on distinct strengths and limitations of each paradigm, providing actionable insights that can inform future architectural and training decisions in the evolving landscape of text-to-music generation. Audio sampled examples are available at: https://huggingface.co/spaces/ortal1602/ARvsFM
PDF282June 12, 2025