Audio Flamingo Next: новое поколение открытых аудио-языковых моделей для обработки речи, звука и музыки

Аннотация

Мы представляем Audio Flamingo Next (AF-Next) — модель следующего поколения и наиболее совершенную крупную аудио-языковую модель в серии Audio Flamingo, разработанную для прогресса в понимании и анализе речи, окружающих звуков и музыки. По сравнению с Audio Flamingo 3, AF-Next вводит: (i) более мощную базовую аудио-языковую модель, которая значительно повышает точность при решении разнообразных задач понимания аудио; (ii) масштабируемые стратегии для создания крупномасштабных данных для понимания и анализа аудио, выходящих за рамки существующих академических бенчмарков; (iii) поддержку длинных и сложных аудиовходов продолжительностью до 30 минут; и (iv) Temporal Audio Chain-of-Thought — новую парадигму анализа, которая явно привязывает промежуточные шаги рассуждения к временны́м меткам в длинном аудио, обеспечивая точное временно́е согласование и улучшенную интерпретируемость. Для реализации этих возможностей мы сначала провели системный анализ Audio Flamingo 3, чтобы выявить ключевые пробелы в понимании и анализе аудио. Затем мы отобрали и масштабировали новые крупномасштабные наборы данных общей продолжительностью более 1 миллиона часов, чтобы устранить эти ограничения и расширить существующие наборы AudioSkills-XL, LongAudio-XL, AF-Think и AF-Chat. Обучение AF-Next проводилось по учебно-ориентированной стратегии, охватывающей этапы предварительного, промежуточного и последующего обучения. Многочисленные эксперименты на 20 бенчмарках понимания и анализа аудио, включая сложные задачи с длинными аудиозаписями, показывают, что AF-Next значительно превосходит открытые модели сопоставимого размера и остается высококонкурентоспособной, а иногда и превосходит гораздо более крупные открытые и закрытые модели. Помимо производительности на бенчмарках, AF-Next демонстрирует высокую практическую применимость и хорошую передаваемость на незаданные задачи, подчеркивая ее надежность и способность к обобщению. В дополнение ко всем данным, коду и методам мы открываем исходный код 3 вариантов AF-Next, включая AF-Next-Instruct, AF-Next-Think и AF-Next-Captioner.

English

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

Audio Flamingo Next: новое поколение открытых аудио-языковых моделей для обработки речи, звука и музыки

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Аннотация

Support