ChatPaper.aiChatPaper

Music Flamingo: Escalonando a Compreensão Musical em Modelos de Linguagem de Áudio

Music Flamingo: Scaling Music Understanding in Audio Language Models

November 13, 2025
Autores: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Resumo

Apresentamos o Music Flamingo, um novo e avançado modelo de áudio e linguagem projetado para promover a compreensão musical (incluindo canções) em modelos fundamentais de áudio. Embora a pesquisa em áudio e linguagem tenha progredido rapidamente, a música continua a ser um desafio devido à sua natureza dinâmica, estratificada e densa em informação. O progresso tem sido ainda mais limitado pela dificuldade de escalar modelos abertos de compreensão de áudio, principalmente devido à escassez de dados e anotações musicais de alta qualidade. Como resultado, os modelos anteriores estão restritos a produzir legendas curtas e de alto nível, a responder apenas a perguntas superficiais e a mostrar uma generalização limitada entre diversas culturas musicais. Para enfrentar esses desafios, criamos o MF-Skills, um conjunto de dados em larga escala rotulado por meio de um pipeline multiestágio que produz legendas ricas e pares de pergunta-resposta abrangendo harmonia, estrutura, timbre, letras e contexto cultural. Ajustamos finamente uma versão aprimorada do backbone Audio Flamingo 3 no MF-Skills e fortalecemos ainda mais múltiplas habilidades relevantes para a compreensão musical. Para melhorar as capacidades de raciocínio do modelo, introduzimos uma receita de pós-treinamento: iniciamos primeiro com um "cold-start" usando o MF-Think, um novo conjunto de dados de cadeia de pensamento fundamentado em teoria musical, seguido por um aprendizado por reforço baseado em GRPO com recompensas personalizadas. O Music Flamingo alcança resultados state-of-the-art em mais de 10 benchmarks para compreensão e raciocínio musical, estabelecendo-se como um modelo generalista e musicalmente inteligente de áudio e linguagem. Para além de fortes resultados empíricos, o Music Flamingo estabelece um novo padrão para a compreensão musical avançada, demonstrando como os modelos podem evoluir do reconhecimento superficial para uma percepção estratificada e semelhante à humana das canções. Acreditamos que este trabalho fornece tanto um benchmark quanto uma base para a comunidade construir a próxima geração de modelos que se envolvem com a música de forma tão significativa quanto os humanos.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
PDF102December 1, 2025