ChatPaper.aiChatPaper

Music Flamingo: オーディオ言語モデルにおける音楽理解のスケーリング

Music Flamingo: Scaling Music Understanding in Audio Language Models

November 13, 2025
著者: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

要旨

我々は、音楽(歌曲を含む)理解において基盤的なオーディオモデルの発展を推進するために設計された新規の大規模音声言語モデル「Music Flamingo」を提案する。音声言語研究は急速に進展しているが、音楽はその動的・多層的・高密度な性質から依然として課題となっている。さらに、高品質な音楽データと注釈の不足が主因で、オープンな音声理解モデルのスケーリングが困難であるため、研究の進展は制限されてきた。その結果、従来のモデルは短く高次元なキャプション生成に留まり、表面的な質問への回答のみ可能で、多様な音楽文化にわたる汎化能力も限定的であった。これらの課題に対処するため、我々はハーモニー・構造・音色・歌詞・文化的文脈を網羅する豊富なキャプションと質疑応答ペアを生成する多段階パイプラインで注釈を付与した大規模データセットMF-Skillsを構築した。Audio Flamingo 3の拡張バックボーンをMF-Skillsでファインチューニングし、音楽理解に関連する複数のスキルを強化する。推論能力向上のため、音楽理論に基づく新規チェイン・オブ・シンクデータセットMF-Thinkを用いたコールドスタートを経て、カスタム報酬によるGRPOベース強化学習を行うポストトレーニング手法を導入する。Music Flamingoは音楽理解と推論の10以上のベンチマークで最先端の結果を達成し、汎用的かつ音楽的に知的な音声言語モデルとしての地位を確立した。強力な実験結果に加え、本モデルは表面的な認識から歌曲に対する多層的で人間らしい知覚へとモデルを進化させる道筋を示し、高度な音楽理解の新たな基準を設定する。本研究成果が、音楽を人間と同等に意味豊かに扱う次世代モデル構築のための基盤とベンチマークをコミュニティに提供すると確信している。
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
PDF102December 1, 2025