ChatPaper.aiChatPaper

Audio Flamingo 2: Een Audio-Taalmodel met Begrip van Lange Audiobestanden en Expert Redeneervaardigheden

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

March 6, 2025
Auteurs: Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro
cs.AI

Samenvatting

Het begrijpen en redeneren over niet-spraakgeluiden en muziek is cruciaal voor zowel mensen als AI-agenten om effectief te kunnen interacteren met hun omgeving. In dit artikel introduceren we Audio Flamingo 2 (AF2), een Audio-Taal Model (ALM) met geavanceerde mogelijkheden voor audio-begrip en redenering. AF2 maakt gebruik van (i) een aangepast CLAP-model, (ii) synthetische Audio QA-gegevens voor gedetailleerde audio-redenering, en (iii) een meerfasige curriculumleerstrategie. AF2 behaalt state-of-the-art prestaties met slechts een klein taalmodel van 3B parameters, en overtreft grote open-source en propriëtaire modellen op meer dan 20 benchmarks. Vervolgens breiden we, voor het eerst, audio-begrip uit naar lange audiosegmenten (30 seconden tot 5 minuten) en introduceren we LongAudio, een grote en nieuwe dataset voor het trainen van ALM's op taken voor lange audio-beschrijving en vraag-beantwoording. Het finetunen van AF2 op LongAudio resulteert in uitzonderlijke prestaties op onze voorgestelde LongAudioBench, een door experts geannoteerde benchmark voor het evalueren van ALM's op het begrijpen van lange audiosegmenten. We voeren uitgebreide ablatiestudies uit om de effectiviteit van onze aanpak te bevestigen. Projectwebsite: https://research.nvidia.com/labs/adlr/AF2/.
English
Understanding and reasoning over non-speech sounds and music are crucial for both humans and AI agents to interact effectively with their environments. In this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM) with advanced audio understanding and reasoning capabilities. AF2 leverages (i) a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves state-of-the-art performance with only a 3B parameter small language model, surpassing large open-source and proprietary models across over 20 benchmarks. Next, for the first time, we extend audio understanding to long audio segments (30 secs to 5 mins) and propose LongAudio, a large and novel dataset for training ALMs on long audio captioning and question-answering tasks. Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio understanding capabilities. We conduct extensive ablation studies to confirm the efficacy of our approach. Project Website: https://research.nvidia.com/labs/adlr/AF2/.

Summary

AI-Generated Summary

PDF232March 7, 2025