Audio Flamingo Next: Modelos de Áudio e Linguagem de Nova Geração para Fala, Som e Música

Resumo

Apresentamos o Audio Flamingo Next (AF-Next), a grande modelo de áudio e linguagem de próxima geração e mais capaz da série Audio Flamingo, concebido para avançar a compreensão e o raciocínio sobre fala, sons ambientais e música. Em comparação com o Audio Flamingo 3, o AF-Next introduz: (i) um modelo base de áudio e linguagem mais robusto que melhora significativamente a precisão em diversas tarefas de compreensão de áudio; (ii) estratégias escaláveis para a construção de dados de compreensão e raciocínio de áudio em larga escala, para além dos benchmarks académicos existentes; (iii) suporte para entradas de áudio longas e complexas de até 30 minutos; e (iv) o *Temporal Audio Chain-of-Thought*, um novo paradigma de raciocínio que ancora explicitamente as etapas intermédias de raciocínio a *timestamps* no áudio longo, permitindo um alinhamento temporal de granularidade fina e uma melhor interpretabilidade. Para possibilitar estas capacidades, começámos por realizar uma análise sistemática do Audio Flamingo 3 para identificar lacunas-chave na compreensão e no raciocínio de áudio. De seguida, curamos e dimensionamos novos conjuntos de dados em larga escala, totalizando mais de 1 milhão de horas, para superar estas limitações e expandir os conjuntos de dados existentes AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat. O AF-Next foi treinado usando uma estratégia baseada em currículo, abrangendo fases de pré-treinamento, meio-treinamento e pós-treinamento. Experiências extensas em 20 benchmarks de compreensão e raciocínio de áudio, incluindo tarefas desafiadoras de áudio longo, mostram que o AF-Next supera modelos abertos de dimensão semelhante por largas margens e mantém-se altamente competitivo, por vezes superando, modelos abertos com pesos (*open-weight*) e modelos fechados (*closed*) muito maiores. Para além do desempenho em benchmarks, o AF-Next exibe uma forte utilidade no mundo real e transfere bem para tarefas não vistas, destacando a sua robustez e capacidade de generalização. Para além de todos os dados, código e métodos, disponibilizamos em código aberto 3 variantes do AF-Next, incluindo o AF-Next-Instruct, o AF-Next-Think e o AF-Next-Captioner.

English

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

Audio Flamingo Next: Modelos de Áudio e Linguagem de Nova Geração para Fala, Som e Música

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Resumo

Support