자동회귀 대 흐름 매칭: 텍스트-음악 생성을 위한 모델링 패러다임 비교 연구
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation
June 10, 2025
저자: Or Tal, Felix Kreuk, Yossi Adi
cs.AI
초록
텍스트-음악 생성 분야의 최근 발전으로 인해 모델은 고품질의 음악 세그먼트와 완전한 작곡을 합성할 수 있을 뿐만 아니라, 코드 진행과 같은 세밀한 제어 신호에도 반응할 수 있게 되었다. 최첨단(State-of-the-art, SOTA) 시스템은 훈련 데이터셋, 모델링 패러다임, 아키텍처 선택 등 다양한 차원에서 크게 다르다. 이러한 다양성은 모델을 공정하게 평가하고 성능에 가장 큰 영향을 미치는 설계 선택을 정확히 파악하는 데 어려움을 준다. 데이터와 아키텍처와 같은 요소가 중요하지만, 본 연구에서는 모델링 패러다임에 초점을 맞춘다. 우리는 그 효과를 분리하기 위해 체계적인 실증적 분석을 수행하여, 향후 텍스트-음악 생성 시스템을 이끌 수 있는 관련 트레이드오프와 새로운 행동 양식에 대한 통찰을 제공한다. 구체적으로, 우리는 가장 일반적으로 사용되는 두 가지 모델링 패러다임인 자동회귀 디코딩(Auto-Regressive decoding)과 조건부 흐름 매칭(Conditional Flow-Matching)을 비교한다. 동일한 데이터셋, 훈련 구성, 유사한 백본 아키텍처를 사용하여 모든 모델을 처음부터 훈련함으로써 통제된 비교를 수행한다. 성능은 생성 품질, 추론 구성에 대한 견고성, 확장성, 텍스트 및 시간적으로 정렬된 조건화에 대한 준수, 오디오 인페인팅 형태의 편집 능력 등 여러 축에서 평가된다. 이 비교 연구는 각 패러다임의 독특한 강점과 한계를 밝혀내며, 텍스트-음악 생성의 진화하는 환경에서 미래의 아키텍처 및 훈련 결정에 유용한 통찰을 제공한다. 오디오 샘플 예제는 https://huggingface.co/spaces/ortal1602/ARvsFM에서 확인할 수 있다.
English
Recent progress in text-to-music generation has enabled models to synthesize
high-quality musical segments, full compositions, and even respond to
fine-grained control signals, e.g. chord progressions. State-of-the-art (SOTA)
systems differ significantly across many dimensions, such as training datasets,
modeling paradigms, and architectural choices. This diversity complicates
efforts to evaluate models fairly and pinpoint which design choices most
influence performance. While factors like data and architecture are important,
in this study we focus exclusively on the modeling paradigm. We conduct a
systematic empirical analysis to isolate its effects, offering insights into
associated trade-offs and emergent behaviors that can guide future
text-to-music generation systems. Specifically, we compare the two arguably
most common modeling paradigms: Auto-Regressive decoding and Conditional
Flow-Matching. We conduct a controlled comparison by training all models from
scratch using identical datasets, training configurations, and similar backbone
architectures. Performance is evaluated across multiple axes, including
generation quality, robustness to inference configurations, scalability,
adherence to both textual and temporally aligned conditioning, and editing
capabilities in the form of audio inpainting. This comparative study sheds
light on distinct strengths and limitations of each paradigm, providing
actionable insights that can inform future architectural and training decisions
in the evolving landscape of text-to-music generation. Audio sampled examples
are available at: https://huggingface.co/spaces/ortal1602/ARvsFM