GAMA: 고급 오디오 이해와 복잡한 추론 능력을 갖춘 대규모 오디오-언어 모델
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
저자: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
초록
비언어적 음성과 비음성 소리를 인지하고 이해하는 것은 우리가 주변 환경과 상호작용하는 데 도움을 주는 결정을 내리는 데 필수적입니다. 본 논문에서는 고급 오디오 이해와 복잡한 추론 능력을 갖춘 새로운 범용 대형 오디오-언어 모델(LALM)인 GAMA를 제안합니다. GAMA는 LLM(Large Language Model)을 사용자 정의 오디오 Q-Former와 오디오 인코더의 여러 계층에서 특징을 집계하는 다층 집계기(multi-layer aggregator)를 포함한 다양한 유형의 오디오 표현과 통합하여 구축했습니다. GAMA는 대규모 오디오-언어 데이터셋에서 미세 조정(fine-tuning)을 수행하여 오디오 이해 능력을 강화했습니다. 다음으로, 모델이 입력 오디오에 대해 복잡한 추론을 수행해야 하는 지시를 포함한 합성적으로 생성된 지시 튜닝(Instruction-Tuning) 데이터셋인 CompA-R(Complex Audio Reasoning을 위한 Instruction-Tuning)을 제안합니다. GAMA를 CompA-R로 지시 튜닝하여 복잡한 추론 능력을 부여했으며, 여기서 입력 오디오의 이벤트 태그를 활용하여 고수준의 의미론적 증거를 포함한 소프트 프롬프트를 추가로 입력했습니다. 마지막으로, 복잡한 추론이 필요한 개방형 오디오 질문-응답에서 LALM의 능력을 평가하기 위해 인간이 라벨링한 평가 데이터셋인 CompA-R-test도 제안합니다. 자동화된 평가와 전문가 평가를 통해 GAMA가 다양한 오디오 이해 작업에서 문헌에 있는 다른 모든 LALM을 1%~84%의 차이로 능가함을 보여줍니다. 또한, CompA-R로 지시 튜닝된 GAMA는 복잡한 추론 및 지시 수행 능력에서 우수함을 입증했습니다.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.Summary
AI-Generated Summary