ChatPaper.aiChatPaper

Audio Flamingo 3: Avançando a Inteligência de Áudio com Grandes Modelos de Linguagem de Áudio Totalmente Abertos

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

July 10, 2025
Autores: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI

Resumo

Apresentamos o Audio Flamingo 3 (AF3), um modelo de grande escala áudio-linguagem totalmente aberto e de última geração (SOTA) que avança o raciocínio e a compreensão em fala, som e música. O AF3 introduz: (i) AF-Whisper, um codificador de áudio unificado treinado com uma nova estratégia para aprendizado de representação conjunta entre os três modais de fala, som e música; (ii) pensamento flexível e sob demanda, permitindo que o modelo realize raciocínio do tipo cadeia de pensamento antes de responder; (iii) chat multi-turn e multi-áudio; (iv) compreensão e raciocínio de áudios longos (incluindo fala) de até 10 minutos; e (v) interação voz a voz. Para habilitar essas capacidades, propomos vários conjuntos de dados de treinamento em grande escala curados com estratégias inovadoras, incluindo AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat, e treinamos o AF3 com uma nova estratégia de treinamento baseada em currículo de cinco estágios. Treinado apenas com dados de áudio de código aberto, o AF3 alcança novos resultados SOTA em mais de 20 benchmarks de compreensão e raciocínio de áudio (longo), superando tanto modelos de peso aberto quanto modelos de código fechado treinados em conjuntos de dados muito maiores.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
PDF103July 15, 2025