ChatPaper.aiChatPaper

오디오 플라밍고 2: 장시간 오디오 이해와 전문가 수준의 추론 능력을 갖춘 오디오-언어 모델

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

March 6, 2025
저자: Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro
cs.AI

초록

비언어적 소리와 음악을 이해하고 추론하는 능력은 인간과 AI 에이전트가 환경과 효과적으로 상호작용하기 위해 필수적입니다. 본 논문에서는 고급 오디오 이해 및 추론 능력을 갖춘 오디오-언어 모델(Audio-Language Model, ALM)인 Audio Flamingo 2(AF2)를 소개합니다. AF2는 (i) 맞춤형 CLAP 모델, (ii) 세밀한 오디오 추론을 위한 합성 오디오 QA 데이터, 그리고 (iii) 다단계 커리큘럼 학습 전략을 활용합니다. AF2는 단 30억 개의 파라미터로 구성된 소규모 언어 모델임에도 불구하고 20개 이상의 벤치마크에서 대형 오픈소스 및 상용 모델들을 능가하는 최첨단 성능을 달성했습니다. 또한, 본 연구에서는 최초로 오디오 이해를 긴 오디오 세그먼트(30초에서 5분)로 확장하고, 긴 오디오 캡셔닝 및 질의응답 작업을 위한 대규모 신규 데이터셋인 LongAudio를 제안합니다. LongAudio를 활용해 AF2를 미세 조정한 결과, 긴 오디오 이해 능력을 평가하기 위한 전문가 주석 벤치마크인 LongAudioBench에서 탁월한 성능을 보였습니다. 본 연구의 접근 방식의 효용성을 확인하기 위해 광범위한 절제 연구를 수행했습니다. 프로젝트 웹사이트: https://research.nvidia.com/labs/adlr/AF2/.
English
Understanding and reasoning over non-speech sounds and music are crucial for both humans and AI agents to interact effectively with their environments. In this paper, we introduce Audio Flamingo 2 (AF2), an Audio-Language Model (ALM) with advanced audio understanding and reasoning capabilities. AF2 leverages (i) a custom CLAP model, (ii) synthetic Audio QA data for fine-grained audio reasoning, and (iii) a multi-stage curriculum learning strategy. AF2 achieves state-of-the-art performance with only a 3B parameter small language model, surpassing large open-source and proprietary models across over 20 benchmarks. Next, for the first time, we extend audio understanding to long audio segments (30 secs to 5 mins) and propose LongAudio, a large and novel dataset for training ALMs on long audio captioning and question-answering tasks. Fine-tuning AF2 on LongAudio leads to exceptional performance on our proposed LongAudioBench, an expert annotated benchmark for evaluating ALMs on long audio understanding capabilities. We conduct extensive ablation studies to confirm the efficacy of our approach. Project Website: https://research.nvidia.com/labs/adlr/AF2/.

Summary

AI-Generated Summary

PDF232March 7, 2025