Music Flamingo : Mettre à l'échelle la compréhension musicale dans les modèles de langage audio
Music Flamingo: Scaling Music Understanding in Audio Language Models
November 13, 2025
papers.authors: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
papers.abstract
Nous présentons Music Flamingo, un nouveau grand modèle audio-langage conçu pour faire progresser la compréhension musicale (y compris des chansons) dans les modèles audio fondamentaux. Si la recherche audio-langage a progressé rapidement, la musique reste un défi en raison de sa nature dynamique, multicouche et riche en informations. Les progrès ont été en outre limités par la difficulté de mettre à l'échelle des modèles ouverts de compréhension audio, principalement en raison de la rareté des données musicales et des annotations de haute qualité. En conséquence, les modèles antérieurs se limitent à produire de brèves descriptions de haut niveau, à répondre uniquement à des questions superficielles et présentent une généralisation limitée à travers les diverses cultures musicales. Pour relever ces défis, nous constituons MF-Skills, un jeu de données à grande échelle annoté via un pipeline multi-étapes qui génère des descriptions riches et des paires question-réponse couvrant l'harmonie, la structure, le timbre, les paroles et le contexte culturel. Nous affinons une architecture Audio Flamingo 3 améliorée sur MF-Skills et renforçons davantage de multiples compétences pertinentes pour la compréhension musicale. Pour améliorer les capacités de raisonnement du modèle, nous introduisons une méthode de post-entraînement : nous commençons d'abord par un démarrage à froid avec MF-Think, un nouveau jeu de données de raisonnement en chaîne fondé sur la théorie musicale, suivi d'un apprentissage par renforcement basé sur GRPO avec des récompenses personnalisées. Music Flamingo obtient des résultats state-of-the-art sur plus de 10 benchmarks pour la compréhension et le raisonnement musicaux, s'établissant comme un modèle audio-langage généraliste et musicalement intelligent. Au-delà de solides résultats empiriques, Music Flamingo établit une nouvelle norme pour la compréhension musicale avancée en démontrant comment les modèles peuvent passer d'une reconnaissance superficielle à une perception multicouche et humaine des chansons. Nous pensons que ce travail fournit à la fois un point de référence et une base pour que la communauté puisse construire la prochaine génération de modèles qui interagissent avec la musique de manière aussi significative que les humains.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.