Audio Flamingo 2: Un modelo de lenguaje-audio con comprensión de audio largo y capacidades de razonamiento experto

Resumen

Comprender y razonar sobre sonidos no verbales y música es crucial tanto para los humanos como para los agentes de IA para interactuar de manera efectiva con sus entornos. En este artículo, presentamos Audio Flamingo 2 (AF2), un Modelo de Audio-Lenguaje (ALM) con capacidades avanzadas de comprensión y razonamiento de audio. AF2 aprovecha (i) un modelo CLAP personalizado, (ii) datos sintéticos de Preguntas y Respuestas de Audio para un razonamiento de audio detallado, y (iii) una estrategia de aprendizaje curricular en múltiples etapas. AF2 logra un rendimiento de vanguardia con un modelo de lenguaje pequeño de solo 3B parámetros, superando a modelos grandes de código abierto y propietarios en más de 20 benchmarks. A continuación, por primera vez, extendemos la comprensión de audio a segmentos largos de audio (de 30 segundos a 5 minutos) y proponemos LongAudio, un conjunto de datos grande y novedoso para entrenar ALMs en tareas de subtitulación y preguntas y respuestas de audio largo. El ajuste fino de AF2 en LongAudio conduce a un rendimiento excepcional en nuestro LongAudioBench propuesto, un benchmark anotado por expertos para evaluar las capacidades de comprensión de audio largo en ALMs. Realizamos extensos estudios de ablación para confirmar la eficacia de nuestro enfoque. Sitio web del proyecto: https://research.nvidia.com/labs/adlr/AF2/.

English

Understanding and reasoning over non-speech sounds and music are crucial for both humans and AI agents to interact effectively with their environments. In this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM) with advanced audio understanding and reasoning capabilities. AF2 leverages (i) a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves state-of-the-art performance with only a 3B parameter small language model, surpassing large open-source and proprietary models across over 20 benchmarks. Next, for the first time, we extend audio understanding to long audio segments (30 secs to 5 mins) and propose LongAudio, a large and novel dataset for training ALMs on long audio captioning and question-answering tasks. Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio understanding capabilities. We conduct extensive ablation studies to confirm the efficacy of our approach. Project Website: https://research.nvidia.com/labs/adlr/AF2/.

Audio Flamingo 2: Un modelo de lenguaje-audio con comprensión de audio largo y capacidades de razonamiento experto

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Resumen

Support