Audio Flamingo 2: Um Modelo de Áudio-Linguagem com Compreensão de Áudio Longo e Habilidades de Raciocínio Especializado

Resumo

Compreender e raciocinar sobre sons não verbais e música é crucial tanto para humanos quanto para agentes de IA interagirem efetivamente com seus ambientes. Neste artigo, apresentamos o Audio Flamingo 2 (AF2), um Modelo de Áudio-Linguagem (ALM) com capacidades avançadas de compreensão e raciocínio de áudio. O AF2 utiliza (i) um modelo CLAP personalizado, (ii) dados sintéticos de Perguntas e Respostas de Áudio para raciocínio detalhado de áudio, e (iii) uma estratégia de aprendizado curricular em múltiplas etapas. O AF2 alcança desempenho de ponta com apenas um modelo de linguagem pequeno de 3B parâmetros, superando modelos grandes de código aberto e proprietários em mais de 20 benchmarks. Em seguida, pela primeira vez, estendemos a compreensão de áudio para segmentos longos de áudio (30 segundos a 5 minutos) e propomos o LongAudio, um grande e novo conjunto de dados para treinar ALMs em tarefas de legendagem e perguntas e respostas de áudio longo. O ajuste fino do AF2 no LongAudio resulta em um desempenho excepcional no nosso LongAudioBench, um benchmark anotado por especialistas para avaliar as capacidades de compreensão de áudio longo em ALMs. Realizamos extensos estudos de ablação para confirmar a eficácia da nossa abordagem. Site do Projeto: https://research.nvidia.com/labs/adlr/AF2/.

English

Understanding and reasoning over non-speech sounds and music are crucial for both humans and AI agents to interact effectively with their environments. In this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM) with advanced audio understanding and reasoning capabilities. AF2 leverages (i) a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves state-of-the-art performance with only a 3B parameter small language model, surpassing large open-source and proprietary models across over 20 benchmarks. Next, for the first time, we extend audio understanding to long audio segments (30 secs to 5 mins) and propose LongAudio, a large and novel dataset for training ALMs on long audio captioning and question-answering tasks. Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio understanding capabilities. We conduct extensive ablation studies to confirm the efficacy of our approach. Project Website: https://research.nvidia.com/labs/adlr/AF2/.

Audio Flamingo 2: Um Modelo de Áudio-Linguagem com Compreensão de Áudio Longo e Habilidades de Raciocínio Especializado

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Resumo

Support