ChatPaper.aiChatPaper

Music Flamingo: Skalierung des Musikverständnisses in Audio-Sprachmodellen

Music Flamingo: Scaling Music Understanding in Audio Language Models

November 13, 2025
papers.authors: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

papers.abstract

Wir stellen Music Flamingo vor, ein neuartiges großes Audio-Sprach-Modell, das entwickelt wurde, um das Musikverständnis (einschließlich Songs) in grundlegenden Audiomodellen zu verbessern. Während die Audio-Sprach-Forschung rasante Fortschritte gemacht hat, bleibt Musik aufgrund ihrer dynamischen, mehrschichtigen und informationsdichten Natur eine Herausforderung. Der Fortschritt wurde weiterhin durch die Schwierigkeit eingeschränkt, offene Audio-Verständnismodelle zu skalieren, hauptsächlich aufgrund der Knappheit an hochwertigen Musikdaten und Annotationen. Infolgedessen sind frühere Modelle darauf beschränkt, kurze, hochrangige Beschreibungen zu produzieren, nur oberflächliche Fragen zu beantworten und zeigen eine begrenzte Generalisierung über verschiedene Musikkulturen hinweg. Um diese Herausforderungen zu bewältigen, haben wir MF-Skills kuratiert, einen großen Datensatz, der durch eine mehrstufige Pipeline erstellt wurde und reichhaltige Beschreibungen sowie Frage-Antwort-Paare liefert, die Harmonie, Struktur, Klangfarbe, Songtexte und kulturellen Kontext abdecken. Wir feintunen ein erweitertes Audio Flamingo 3-Grundgerüst auf MF-Skills und stärken weiterhin mehrere für das Musikverständnis relevante Fähigkeiten. Um die Denkfähigkeiten des Modells zu verbessern, führen wir ein Post-Training-Rezept ein: Wir beginnen zunächst mit einem Cold-Start auf MF-Think, einem neuartigen Chain-of-Thought-Datensatz, der in der Musiktheorie verankert ist, gefolgt von GRPO-basiertem bestärkendem Lernen mit maßgeschneiderten Belohnungen. Music Flamingo erzielt state-of-the-art Ergebnisse über 10+ Benchmarks für Musikverständnis und -denken hinweg und etabliert sich als generalistisches und musikalisch intelligentes Audio-Sprach-Modell. Über starke empirische Ergebnisse hinaus setzt Music Flamingo einen neuen Standard für fortgeschrittenes Musikverständnis, indem es demonstriert, wie Modelle sich von der oberflächlichen Erkennung hin zu einer geschichteten, menschenähnlichen Wahrnehmung von Songs bewegen können. Wir sind überzeugt, dass diese Arbeit sowohl einen Maßstab als auch eine Grundlage für die Community bietet, um die nächste Generation von Modellen zu entwickeln, die sich so bedeutungsvoll mit Musik auseinandersetzen wie Menschen.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
PDF102December 1, 2025