ChatPaper.aiChatPaper

Audio Flamingo 3: Avanzando en la Inteligencia Auditiva con Modelos de Lenguaje de Audio Grandes y Completamente Abiertos

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

July 10, 2025
Autores: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI

Resumen

Presentamos Audio Flamingo 3 (AF3), un modelo de lenguaje-audio grande de última generación (SOTA) completamente abierto que avanza en el razonamiento y la comprensión a través del habla, el sonido y la música. AF3 introduce: (i) AF-Whisper, un codificador de audio unificado entrenado mediante una estrategia novedosa para el aprendizaje de representaciones conjuntas en las 3 modalidades de habla, sonido y música; (ii) pensamiento flexible bajo demanda, permitiendo que el modelo realice razonamientos tipo cadena de pensamiento antes de responder; (iii) chat multi-turn y multi-audio; (iv) comprensión y razonamiento de audio largo (incluyendo habla) de hasta 10 minutos; y (v) interacción de voz a voz. Para habilitar estas capacidades, proponemos varios conjuntos de datos de entrenamiento a gran escala curados mediante estrategias novedosas, incluyendo AudioSkills-XL, LongAudio-XL, AF-Think y AF-Chat, y entrenamos AF3 con una estrategia de entrenamiento basada en un currículum de cinco etapas. Entrenado únicamente con datos de audio de código abierto, AF3 logra nuevos resultados SOTA en más de 20 benchmarks de comprensión y razonamiento de audio (largo), superando tanto a modelos de pesos abiertos como a modelos cerrados entrenados con conjuntos de datos mucho más grandes.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
PDF81July 15, 2025