Music Flamingo: Het Schalen van Muziekbegrip in Audiotalige Modellen
Music Flamingo: Scaling Music Understanding in Audio Language Models
November 13, 2025
Auteurs: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Samenvatting
Wij introduceren Music Flamingo, een nieuw groot audio-taalmodel dat is ontworpen om muziek- (inclusief liedjes) begrip in fundamentele audiomodellen te bevorderen. Hoewel audio-taalonderzoek een snelle vooruitgang heeft geboekt, blijft muziek uitdagend vanwege zijn dynamische, gelaagde en informatie-intensieve aard. De vooruitgang wordt verder beperkt door de moeilijkheid om open audio-begripsmodellen op te schalen, voornamelijk door de schaarste aan hoogwaardige muziekdata en annotaties. Als gevolg daarvan zijn eerdere modellen beperkt tot het produceren van korte, hoogoverzichtelijke beschrijvingen, het beantwoorden van alleen oppervlakkige vragen, en vertonen ze beperkte generalisatie over diverse muzikale culturen. Om deze uitdagingen aan te pakken, stellen we MF-Skills samen, een grootschalige dataset die gelabeld is via een meerfasenpijplijn, wat rijke beschrijvingen en vraag-antwoordparen oplevert die harmonie, structuur, klankkleur, songteksten en culturele context beslaan. We fine-tunen een verbeterde Audio Flamingo 3-backbone op MF-Skills en versterken verder meerdere vaardigheden die relevant zijn voor muziekbegrip. Om de redeneervermogens van het model te verbeteren, introduceren we een post-training recept: we starten eerst *cold-start* met MF-Think, een nieuwe *chain-of-thought*-dataset gebaseerd op muziektheorie, gevolgd door GRPO-gebaseerde reinforcement learning met aangepaste beloningen. Music Flamingo behaalt state-of-the-art resultaten op meer dan 10 benchmarks voor muziekbegrip en redeneren, en vestigt zichzelf als een generalistisch en muzikaal intelligent audio-taalmodel. Naast sterke empirische resultaten zet Music Flamingo een nieuwe standaard voor geavanceerd muziekbegrip door te demonstreren hoe modellen kunnen verschuiven van oppervlakkige herkenning naar gelaagde, mensachtige perceptie van liedjes. Wij geloven dat dit werk zowel een ijkpunt als een fundament biedt voor de gemeenschap om de volgende generatie modellen te bouwen die even betekenisvol met muziek omgaan als mensen doen.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.