ChatPaper.aiChatPaper

Audio Flamingo 3: Fortschritt in der Audio-Intelligenz durch vollständig offene große Audio-Sprachmodelle

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

July 10, 2025
papers.authors: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI

papers.abstract

Wir präsentieren Audio Flamingo 3 (AF3), ein vollständig offenes, state-of-the-art (SOTA) großes Audio-Sprach-Modell, das das Denken und Verständnis über Sprache, Klang und Musik hinweg vorantreibt. AF3 führt ein: (i) AF-Whisper, einen einheitlichen Audio-Encoder, der mit einer neuartigen Strategie für gemeinsames Repräsentationslernen über alle drei Modalitäten Sprache, Klang und Musik trainiert wurde; (ii) flexibles, bedarfsgesteuertes Denken, das es dem Modell ermöglicht, Ketten von Gedanken (Chain-of-Thought) zu bilden, bevor es antwortet; (iii) mehrschrittige, mehrfache Audio-Chats; (iv) Langzeit-Audio-Verständnis und -Denken (einschließlich Sprache) von bis zu 10 Minuten; und (v) Stimme-zu-Stimme-Interaktion. Um diese Fähigkeiten zu ermöglichen, schlagen wir mehrere groß angelegte Trainingsdatensätze vor, die mit neuartigen Strategien kuratiert wurden, darunter AudioSkills-XL, LongAudio-XL, AF-Think und AF-Chat, und trainieren AF3 mit einer neuartigen, fünfstufigen, lehrplanbasierten Trainingsstrategie. AF3, das ausschließlich auf Open-Source-Audio-Daten trainiert wurde, erzielt neue SOTA-Ergebnisse in über 20+ (langen) Audio-Verständnis- und Denk-Benchmarks und übertrifft sowohl Open-Weight- als auch Closed-Source-Modelle, die auf viel größeren Datensätzen trainiert wurden.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
PDF71July 15, 2025