Audio Flamingo 2: Um Modelo de Áudio-Linguagem com Compreensão de Áudio Longo e Habilidades de Raciocínio Especializado
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities
March 6, 2025
Autores: Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro
cs.AI
Resumo
Compreender e raciocinar sobre sons não verbais e música é crucial tanto para humanos quanto para agentes de IA interagirem efetivamente com seus ambientes. Neste artigo, apresentamos o Audio Flamingo 2 (AF2), um Modelo de Áudio-Linguagem (ALM) com capacidades avançadas de compreensão e raciocínio de áudio. O AF2 utiliza (i) um modelo CLAP personalizado, (ii) dados sintéticos de Perguntas e Respostas de Áudio para raciocínio detalhado de áudio, e (iii) uma estratégia de aprendizado curricular em múltiplas etapas. O AF2 alcança desempenho de ponta com apenas um modelo de linguagem pequeno de 3B parâmetros, superando modelos grandes de código aberto e proprietários em mais de 20 benchmarks. Em seguida, pela primeira vez, estendemos a compreensão de áudio para segmentos longos de áudio (30 segundos a 5 minutos) e propomos o LongAudio, um grande e novo conjunto de dados para treinar ALMs em tarefas de legendagem e perguntas e respostas de áudio longo. O ajuste fino do AF2 no LongAudio resulta em um desempenho excepcional no nosso LongAudioBench, um benchmark anotado por especialistas para avaliar as capacidades de compreensão de áudio longo em ALMs. Realizamos extensos estudos de ablação para confirmar a eficácia da nossa abordagem. Site do Projeto: https://research.nvidia.com/labs/adlr/AF2/.
English
Understanding and reasoning over non-speech sounds and music are crucial for
both humans and AI agents to interact effectively with their environments. In
this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM)
with advanced audio understanding and reasoning capabilities. AF2 leverages (i)
a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio
reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves
state-of-the-art performance with only a 3B parameter small language model,
surpassing large open-source and proprietary models across over 20 benchmarks.
Next, for the first time, we extend audio understanding to long audio segments
(30 secs to 5 mins) and propose LongAudio, a large and novel dataset for
training ALMs on long audio captioning and question-answering tasks.
Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed
LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio
understanding capabilities. We conduct extensive ablation studies to confirm
the efficacy of our approach. Project Website:
https://research.nvidia.com/labs/adlr/AF2/.Summary
AI-Generated Summary