GAMA: 高度な音声理解と複雑な推論能力を備えた大規模音声-言語モデル
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
著者: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
要旨
非音声や非言語的な音声を認識し理解することは、周囲との相互作用を助ける意思決定を行う上で不可欠である。本論文では、高度な音声理解能力と複雑な推論能力を備えた新たな汎用大規模音声言語モデル(LALM)であるGAMAを提案する。GAMAは、カスタムAudio Q-Formerや音声エンコーダの複数層から特徴を集約する多層集約器など、複数のタイプの音声表現をLLMと統合することで構築される。大規模な音声言語データセットでGAMAをファインチューニングし、音声理解能力を強化する。次に、入力音声に対して複雑な推論を要求する指示を含む合成生成された指示チューニング(IT)データセットであるCompA-R(複雑音声推論のための指示チューニング)を提案する。GAMAをCompA-Rで指示チューニングし、入力音声のイベントタグを活用して高レベルの意味的証拠を提供するソフトプロンプトを追加することで、複雑な推論能力を付与する。最後に、複雑な推論を必要とするオープンエンドの音声質問応答においてLALMの能力を評価するための人間によるラベル付き評価データセットであるCompA-R-testも提案する。自動評価と専門家による人間評価を通じて、GAMAが多様な音声理解タスクにおいて文献中の他の全てのLALMを1%から84%の差で上回ることを示す。さらに、CompA-RでITされたGAMAは、その複雑な推論能力と指示追従能力において優れていることが証明される。
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.Summary
AI-Generated Summary