ChatPaper.aiChatPaper

Audio Flamingo Next : La prochaine génération de modèles audio-langage ouverts pour la parole, les sons et la musique

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

April 13, 2026
Auteurs: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping
cs.AI

Résumé

Nous présentons Audio Flamingo Next (AF-Next), la prochaine génération et le modèle audio-langage le plus performant de la série Audio Flamingo, conçu pour faire progresser la compréhension et le raisonnement sur la parole, les sons environnementaux et la musique. Par rapport à Audio Flamingo 3, AF-Next introduit : (i) un modèle audio-langage fondamental plus robuste qui améliore significativement la précision sur diverses tâches de compréhension audio ; (ii) des stratégies évolutives pour construire des données de compréhension et de raisonnement audio à grande échelle au-delà des benchmarks académiques existants ; (iii) la prise en charge d'entrées audio longues et complexes jusqu'à 30 minutes ; et (iv) le Temporal Audio Chain-of-Thought, un nouveau paradigme de raisonnement qui ancre explicitement les étapes de raisonnement intermédiaires à des horodatages dans les longs segments audio, permettant un alignement temporel fin et une meilleur interprétabilité. Pour permettre ces capacités, nous menons d'abord une analyse systématique d'Audio Flamingo 3 pour identifier les lacunes clés en compréhension et raisonnement audio. Nous sélectionnons ensuite et mettons à l'échelle de nouveaux jeux de données massifs totalisant plus d'un million d'heures pour résoudre ces limitations et étendre les jeux de données existants AudioSkills-XL, LongAudio-XL, AF-Think et AF-Chat. AF-Next est entraîné en utilisant une stratégie curriculaire couvrant les phases de pré-entraînement, d'entraînement intermédiaire et de post-entraînement. Des expériences approfondies sur 20 benchmarks de compréhension et de raisonnement audio, incluant des tâches audio longues difficiles, montrent qu'AF-Next surpasse largement les modèles ouverts de taille similaire et reste très compétitif, surpassant parfois des modèles ouverts à poids libres et des modèles fermés bien plus grands. Au-delà des performances sur les benchmarks, AF-Next démontre une forte utilité en conditions réelles et se transpose bien à des tâches non vues, soulignant sa robustesse et sa capacité de généralisation. En plus de toutes les données, du code et des méthodes, nous ouvrons l'accès à 3 variantes d'AF-Next, incluant AF-Next-Instruct, AF-Next-Think et AF-Next-Captioner.
English
We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.
PDF171April 15, 2026