Audio Flamingo 2: Un modelo de lenguaje-audio con comprensión de audio largo y capacidades de razonamiento experto
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities
March 6, 2025
Autores: Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro
cs.AI
Resumen
Comprender y razonar sobre sonidos no verbales y música es crucial tanto para los humanos como para los agentes de IA para interactuar de manera efectiva con sus entornos. En este artículo, presentamos Audio Flamingo 2 (AF2), un Modelo de Audio-Lenguaje (ALM) con capacidades avanzadas de comprensión y razonamiento de audio. AF2 aprovecha (i) un modelo CLAP personalizado, (ii) datos sintéticos de Preguntas y Respuestas de Audio para un razonamiento de audio detallado, y (iii) una estrategia de aprendizaje curricular en múltiples etapas. AF2 logra un rendimiento de vanguardia con un modelo de lenguaje pequeño de solo 3B parámetros, superando a modelos grandes de código abierto y propietarios en más de 20 benchmarks. A continuación, por primera vez, extendemos la comprensión de audio a segmentos largos de audio (de 30 segundos a 5 minutos) y proponemos LongAudio, un conjunto de datos grande y novedoso para entrenar ALMs en tareas de subtitulación y preguntas y respuestas de audio largo. El ajuste fino de AF2 en LongAudio conduce a un rendimiento excepcional en nuestro LongAudioBench propuesto, un benchmark anotado por expertos para evaluar las capacidades de comprensión de audio largo en ALMs. Realizamos extensos estudios de ablación para confirmar la eficacia de nuestro enfoque. Sitio web del proyecto: https://research.nvidia.com/labs/adlr/AF2/.
English
Understanding and reasoning over non-speech sounds and music are crucial for
both humans and AI agents to interact effectively with their environments. In
this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM)
with advanced audio understanding and reasoning capabilities. AF2 leverages (i)
a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio
reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves
state-of-the-art performance with only a 3B parameter small language model,
surpassing large open-source and proprietary models across over 20 benchmarks.
Next, for the first time, we extend audio understanding to long audio segments
(30 secs to 5 mins) and propose LongAudio, a large and novel dataset for
training ALMs on long audio captioning and question-answering tasks.
Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed
LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio
understanding capabilities. We conduct extensive ablation studies to confirm
the efficacy of our approach. Project Website:
https://research.nvidia.com/labs/adlr/AF2/.Summary
AI-Generated Summary