ChatPaper.aiChatPaper

自己回帰モデル vs フローマッチング:テキストから音楽生成のためのモデリングパラダイムの比較研究

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation

June 10, 2025
著者: Or Tal, Felix Kreuk, Yossi Adi
cs.AI

要旨

テキストから音楽を生成する技術の最近の進展により、高品質な音楽セグメントや完全な作曲を合成し、さらにはコード進行などの細かい制御信号に応答するモデルが可能となった。最先端(SOTA)のシステムは、トレーニングデータセット、モデリングパラダイム、アーキテクチャの選択など、多くの次元で大きく異なる。この多様性は、モデルを公平に評価し、どの設計選択が性能に最も影響を与えるかを特定する取り組みを複雑にしている。データやアーキテクチャなどの要因は重要であるが、本研究ではモデリングパラダイムに焦点を当てる。その効果を分離するために系統的な実証分析を行い、将来のテキストから音楽を生成するシステムを導くためのトレードオフや新たな行動に関する洞察を提供する。具体的には、最も一般的なモデリングパラダイムである自己回帰デコーディングと条件付きフローマッチングを比較する。すべてのモデルを同一のデータセット、トレーニング設定、および類似のバックボーンアーキテクチャを使用してゼロからトレーニングすることで、制御された比較を行う。生成品質、推論設定に対するロバスト性、スケーラビリティ、テキストおよび時間的に整列した条件付けへの忠実度、オーディオインペインティング形式の編集能力など、複数の軸で性能を評価する。この比較研究は、各パラダイムの異なる強みと限界を明らかにし、テキストから音楽を生成する進化する分野における将来のアーキテクチャとトレーニングの決定に役立つ実践的な洞察を提供する。オーディオサンプル例は以下で利用可能である:https://huggingface.co/spaces/ortal1602/ARvsFM
English
Recent progress in text-to-music generation has enabled models to synthesize high-quality musical segments, full compositions, and even respond to fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA) systems differ significantly across many dimensions, such as training datasets, modeling paradigms, and architectural choices. This diversity complicates efforts to evaluate models fairly and pinpoint which design choices most influence performance. While factors like data and architecture are important, in this study we focus exclusively on the modeling paradigm. We conduct a systematic empirical analysis to isolate its effects, offering insights into associated trade-offs and emergent behaviors that can guide future text-to-music generation systems. Specifically, we compare the two arguably most common modeling paradigms: Auto-Regressive decoding and Conditional Flow-Matching. We conduct a controlled comparison by training all models from scratch using identical datasets, training configurations, and similar backbone architectures. Performance is evaluated across multiple axes, including generation quality, robustness to inference configurations, scalability, adherence to both textual and temporally aligned conditioning, and editing capabilities in the form of audio inpainting. This comparative study sheds light on distinct strengths and limitations of each paradigm, providing actionable insights that can inform future architectural and training decisions in the evolving landscape of text-to-music generation. Audio sampled examples are available at: https://huggingface.co/spaces/ortal1602/ARvsFM
PDF272June 12, 2025