음악 플라밍고: 오디오 언어 모델의 음악 이해 능력 확장
Music Flamingo: Scaling Music Understanding in Audio Language Models
November 13, 2025
저자: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
초록
우리는 기반 오디오 모델에서 음악(노래 포함) 이해를 발전시키기 위해 설계된 새로운 대규모 오디오-언어 모델인 Music Flamingo를 소개한다. 오디오-언어 연구는 빠르게 진전되었지만, 음악은 그 역동적이고 다층적이며 정보 밀도가 높은 특성으로 인해 여전히 어려운 과제로 남아 있다. 특히 고품질 음악 데이터와 주석의 부족으로 인해 오픈 오디오 이해 모델의 규모 확장이 어려워 진전이 더욱 제한되어 왔다. 그 결과, 기존 모델들은 짧고 높은 수준의 설명만 생성하거나 표면적인 질문에만 답할 뿐이며, 다양한 음악 문화 간 일반화 능력이 제한적이었다. 이러한 문제를 해결하기 위해 우리는 풍부한 설명과 화성, 구조, 음색, 가사, 문화적 맥락을 아우르는 질문-답변 쌍을 생성하는 다단계 파이프라인을 통해 레이블이 지정된 대규모 데이터셋인 MF-Skills를 구축했다. 우리는 향상된 Audio Flamingo 3 백본을 MF-Skills로 미세 조정하고 음악 이해와 관련된 여러 기술을 추가로 강화했다. 모델의 추론 능력을 향상시키기 위해 사후 훈련 방법론을 도입했는데, 먼저 음악 이론에 기반한 새로운 사고 사슬(chain-of-thought) 데이터셋인 MF-Think로 콜드 스타트를 진행한 후, 맞춤형 보상과 GRPO 기반 강화 학습을 적용했다. Music Flamingo는 음악 이해와 추론을 위한 10개 이상의 벤치마크에서 최첨단 성능을 달성하며, 전문가적이고 음악적으로 지능적인 오디오-언어 모델로서의 입지를 확립했다. 강력한 실험 결과를 넘어, Music Flamingo는 모델이 표면적인 인식에서 벗어나 노래에 대한 다층적이고 인간과 유사한 인식으로 나아갈 수 있는 방법을 보여줌으로써 고급 음악 이해의 새로운 기준을 제시한다. 우리는 이 연구가 커뮤니티가 인간과 마찬가지로 의미 있게 음악과 상호작용하는 차세대 모델을 구축하기 위한 벤치마크이자 초석을 제공한다고 믿는다.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.