ChatPaper.aiChatPaper

Flamingo Musical: Escalando la Comprensión Musical en Modelos de Lenguaje de Audio

Music Flamingo: Scaling Music Understanding in Audio Language Models

November 13, 2025
Autores: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Resumen

Presentamos Music Flamingo, un novedoso modelo de audio-lenguaje a gran escala diseñado para impulsar la comprensión musical (incluyendo canciones) en los modelos fundamentales de audio. Aunque la investigación en audio-lenguaje ha progresado rápidamente, la música sigue siendo un desafío debido a su naturaleza dinámica, estratificada y densa en información. El progreso se ha visto además limitado por la dificultad de escalar modelos abiertos de comprensión de audio, principalmente debido a la escasez de datos y anotaciones musicales de alta calidad. Como resultado, los modelos anteriores se restringen a producir descripciones cortas y de alto nivel, a responder solo preguntas superficiales y a mostrar una generalización limitada entre diversas culturas musicales. Para abordar estos desafíos, hemos creado MF-Skills, un conjunto de datos a gran escala etiquetado mediante una canalización de múltiples etapas que genera descripciones ricas y pares de preguntas-respuestas que abarcan armonía, estructura, timbre, letra y contexto cultural. Ajustamos un backbone mejorado de Audio Flamingo 3 en MF-Skills y reforzamos aún más múltiples habilidades relevantes para la comprensión musical. Para mejorar las capacidades de razonamiento del modelo, introducimos una receta de post-entrenamiento: primero iniciamos en frío con MF-Think, un novedoso conjunto de datos de cadena de pensamiento basado en teoría musical, seguido de un aprendizaje por refuerzo basado en GRPO con recompensas personalizadas. Music Flamingo logra resultados de vanguardia en más de 10 benchmarks de comprensión y razonamiento musical, estableciéndose como un modelo de audio-lenguaje generalista y musicalmente inteligente. Más allá de los sólidos resultados empíricos, Music Flamingo establece un nuevo estándar para la comprensión musical avanzada al demostrar cómo los modelos pueden pasar del reconocimiento superficial hacia una percepción estratificada y similar a la humana de las canciones. Creemos que este trabajo proporciona tanto un punto de referencia como una base para que la comunidad construya la próxima generación de modelos que interactúen con la música de una manera tan significativa como lo hacen los humanos.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
PDF102December 1, 2025