ChatPaper.aiChatPaper

Music Flamingo: Scalabilità della comprensione musicale nei modelli audio-linguistici

Music Flamingo: Scaling Music Understanding in Audio Language Models

November 13, 2025
Autori: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Abstract

Introduciamo Music Flamingo, un nuovo e innovativo modello audio-linguistico di grandi dimensioni progettato per far progredire la comprensione della musica (inclusa la canzone) nei modelli audio fondazionali. Sebbene la ricerca audio-linguistica abbia compiuto rapidi progressi, la musica rimane una sfida a causa della sua natura dinamica, stratificata e densa di informazioni. I progressi sono stati ulteriormente limitati dalla difficoltà di scalare modelli aperti di comprensione audio, principalmente a causa della scarsità di dati e annotazioni musicali di alta qualità. Di conseguenza, i modelli precedenti sono limitati alla produzione di didascalie brevi e di alto livello, rispondono solo a domande superficiali e mostrano una limitata generalizzazione tra diverse culture musicali. Per affrontare queste sfide, abbiamo curato MF-Skills, un dataset su larga scala etichettato attraverso una pipeline multi-stadio che produce ricche didascalie e coppie domanda-risposta che coprono armonia, struttura, timbro, testo e contesto culturale. Addestriamo per transfer learning (fine-tuning) un'architettura potenziata di Audio Flamingo 3 su MF-Skills e rafforziamo ulteriormente molteplici abilità rilevanti per la comprensione musicale. Per migliorare le capacità di ragionamento del modello, introduciamo una ricetta di post-addestramento: iniziamo con un "cold-start" su MF-Think, un nuovo dataset a catena di pensiero (chain-of-thought) basato sulla teoria musicale, seguito da un apprendimento per rinforzo basato su GRPO con ricompense personalizzate. Music Flamingo ottiene risultati all'avanguardia su oltre 10 benchmark per la comprensione e il ragionamento musicale, affermandosi come un modello audio-linguistico generalista e musicalmente intelligente. Oltre a forti risultati empirici, Music Flamingo stabilisce un nuovo standard per la comprensione musicale avanzata, dimostrando come i modelli possano passare dal riconoscimento superficiale a una percezione stratificata e simile a quella umana delle canzoni. Riteniamo che questo lavoro fornisca sia un punto di riferimento che una base affinché la comunità possa costruire la prossima generazione di modelli in grado di interagire con la musica in modo significativo come fanno gli esseri umani.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
PDF102December 1, 2025