Музыкальный фламинго: масштабирование понимания музыки в аудиоязыковых моделях
Music Flamingo: Scaling Music Understanding in Audio Language Models
November 13, 2025
Авторы: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Аннотация
Мы представляем Music Flamingo — новую крупную аудио-языковую модель, разработанную для расширения возможностей понимания музыки (включая песни) в базовых аудиомоделях. Несмотря на быстрый прогресс в области аудио-языковых исследований, музыка остается сложной задачей из-за своей динамичной, многослойной и насыщенной информацией природы. Дальнейшее развитие сдерживается трудностями масштабирования открытых моделей понимания аудио, главным образом из-за нехватки высококачественных музыкальных данных и аннотаций. Как следствие, существующие модели ограничены генерацией коротких, общих описаний, способны отвечать лишь на поверхностные вопросы и демонстрируют ограниченную обобщающую способность для различных музыкальных культур. Для решения этих проблем мы создали MF-Skills — масштабный набор данных, размеченный с помощью многоэтапного конвейера, который предоставляет богатые описания и пары «вопрос-ответ», охватывающие гармонию, структуру, тембр, текст песен и культурный контекст. Мы дообучили улучшенный базовый блок Audio Flamingo 3 на MF-Skills и дополнительно усилили множество навыков, связанных с пониманием музыки. Чтобы повысить способности модели к рассуждению, мы внедряем метод пост-обучения: сначала используем «холодный старт» с MF-Think — новым набором данных для chain-of-thought, основанным на музыкальной теории, а затем применяем обучение с подкреплением на основе GRPO с пользовательскими вознаграждениями. Music Flamingo демонстрирует наилучшие результаты более чем на 10 тестовых наборах для понимания и анализа музыки, утверждая себя в качестве универсальной и музыкально интеллектуальной аудио-языковой модели. Помимо сильных эмпирических результатов, Music Flamingo задает новый стандарт продвинутого понимания музыки, показывая, как модели могут перейти от поверхностного распознавания к многоуровневому, человеко-подобному восприятию песен. Мы уверены, что эта работа предоставляет сообществу как ориентир, так и основу для создания следующего поколения моделей, способных взаимодействовать с музыкой так же осмысленно, как и человек.
English
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.