ChatPaper.aiChatPaper

Audio Flamingo 3: Avanzamento dell'Intelligenza Audio con Modelli Linguistici Audio di Grande Scala Completamente Aperti

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

July 10, 2025
Autori: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI

Abstract

Presentiamo Audio Flamingo 3 (AF3), un modello linguistico-auditivo di grandi dimensioni completamente open e all'avanguardia (SOTA) che avanza il ragionamento e la comprensione attraverso il parlato, i suoni e la musica. AF3 introduce: (i) AF-Whisper, un codificatore audio unificato addestrato utilizzando una nuova strategia per l'apprendimento congiunto di rappresentazioni attraverso tutte e tre le modalità di parlato, suoni e musica; (ii) un pensiero flessibile e su richiesta, che consente al modello di eseguire ragionamenti a catena prima di rispondere; (iii) chat multi-turn e multi-audio; (iv) comprensione e ragionamento su audio lunghi (incluso il parlato) fino a 10 minuti; e (v) interazione voce-voce. Per abilitare queste capacità, proponiamo diversi dataset di addestramento su larga scala curati con nuove strategie, tra cui AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat, e addestriamo AF3 con una nuova strategia di addestramento basata su un curriculum a cinque fasi. Addestrato esclusivamente su dati audio open-source, AF3 raggiunge nuovi risultati SOTA su oltre 20+ benchmark di comprensione e ragionamento su audio (lunghi), superando sia modelli open-weight che closed-source addestrati su dataset molto più grandi.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
PDF93July 15, 2025