Audio Flamingo Next: Modelli Audio-Linguistici Aperti di Nuova Generazione per Voce, Suono e Musica

Abstract

Presentiamo Audio Flamingo Next (AF-Next), la nuova generazione e il modello linguistico-audio di grandi dimensioni più capace della serie Audio Flamingo, progettato per far progredire la comprensione e il ragionamento su parlato, suoni ambientali e musica. Risppetto ad Audio Flamingo 3, AF-Next introduce: (i) un modello linguistico-audio base più potente che migliora significativamente l'accuratezza in varie attività di comprensione audio; (ii) strategie scalabili per costruire dati su larga scala per la comprensione e il ragionamento audio, andando oltre i benchmark accademici esistenti; (iii) il supporto per input audio lunghi e complessi fino a 30 minuti; e (iv) il Temporal Audio Chain-of-Thought, un nuovo paradigma di ragionamento che ancora esplicitamente i passaggi di ragionamento intermedi a timestamp nell'audio lungo, consentendo un allineamento temporale granulare e una migliore interpretabilità. Per abilitare queste capacità, abbiamo prima condotto un'analisi sistematica di Audio Flamingo 3 per identificare le lacune chiave nella comprensione e nel ragionamento audio. Successivamente, abbiamo curato e scalato nuovi dataset su larga scala, per un totale di oltre 1 milione di ore, per affrontare queste limitazioni ed espandere i dataset esistenti AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat. AF-Next è stato addestrato utilizzando una strategia basata su un curriculum che abbraccia stadi di pre-addestramento, mid-addestramento e post-addestramento. Esperimenti estensivi su 20 benchmark di comprensione e ragionamento audio, inclusi compiti impegnativi con audio lungo, mostrano che AF-Next supera modelli open di dimensioni simili con ampi margini e rimane altamente competitivo, a volte superando, modelli open-weight e closed molto più grandi. Oltre alle prestazioni sui benchmark, AF-Next mostra una forte utilità nel mondo reale e si trasferisce bene a compiti non visti, evidenziando la sua robustezza e capacità di generalizzazione. Oltre a tutti i dati, il codice e i metodi, rendiamo open-source 3 varianti di AF-Next, tra cui AF-Next-Instruct, AF-Next-Think e AF-Next-Captioner.

English

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

Audio Flamingo Next: Modelli Audio-Linguistici Aperti di Nuova Generazione per Voce, Suono e Musica

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Abstract

Support