ChatPaper.aiChatPaper

Audio Flamingo 3 : Faire progresser l'intelligence audio avec des modèles de langage audio ouverts et de grande envergure

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

July 10, 2025
papers.authors: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI

papers.abstract

Nous présentons Audio Flamingo 3 (AF3), un modèle audio-langue de pointe (SOTA) entièrement ouvert qui fait progresser le raisonnement et la compréhension dans les domaines de la parole, du son et de la musique. AF3 introduit : (i) AF-Whisper, un encodeur audio unifié entraîné à l'aide d'une nouvelle stratégie d'apprentissage de représentations conjointes pour les trois modalités que sont la parole, le son et la musique ; (ii) une réflexion flexible et à la demande, permettant au modèle d'effectuer un raisonnement de type chaîne de pensées avant de répondre ; (iii) un chat multi-tours et multi-audio ; (iv) une compréhension et un raisonnement sur des audios longs (y compris la parole) allant jusqu'à 10 minutes ; et (v) une interaction voix-à-voix. Pour permettre ces capacités, nous proposons plusieurs jeux de données d'entraînement à grande échelle, élaborés à l'aide de nouvelles stratégies, notamment AudioSkills-XL, LongAudio-XL, AF-Think et AF-Chat, et nous entraînons AF3 avec une nouvelle stratégie d'entraînement en cinq étapes basée sur un curriculum. Entraîné uniquement sur des données audio open-source, AF3 établit de nouveaux résultats SOTA sur plus de 20 benchmarks de compréhension et de raisonnement sur des audios (longs), surpassant à la fois les modèles à poids ouverts et les modèles propriétaires entraînés sur des jeux de données beaucoup plus volumineux.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
PDF81July 15, 2025