GAMA: Ein großes Audio-Sprachmodell mit fortschrittlichem Audioverständnis und komplexen Argumentationsfähigkeiten
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
Autoren: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
Zusammenfassung
Das Wahrnehmen und Verstehen von nicht-sprachlichen Klängen und non-verbalen Sprachäußerungen ist entscheidend, um Entscheidungen zu treffen, die uns dabei helfen, mit unserer Umgebung zu interagieren. In diesem Papier schlagen wir GAMA vor, ein neuartiges Allzweck-Großes Audio-Sprachmodell (LALM) mit fortgeschrittenen Audio-Verständnis- und komplexen Argumentationsfähigkeiten. Wir entwickeln GAMA, indem wir ein LLM mit verschiedenen Arten von Audio-Repräsentationen integrieren, einschließlich Merkmalen aus einem benutzerdefinierten Audio-Q-Former, einem mehrschichtigen Aggregator, der Merkmale aus mehreren Schichten eines Audio-Encoders zusammenführt. Wir feinabstimmen GAMA anhand eines umfangreichen Audio-Sprachdatensatzes, der es mit Audio-Verständnisfähigkeiten ausstattet. Als Nächstes schlagen wir CompA-R (Instruktionsabstimmung für komplexe Audio-Argumentation) vor, einen synthetisch generierten Instruktionsabstimmungs (IT)-Datensatz mit Anweisungen, die das Modell dazu auffordern, komplexe Argumentationen über den Eingangston durchzuführen. Wir stimmen GAMA mit CompA-R ab, um es mit komplexen Argumentationsfähigkeiten auszustatten, wobei wir zusätzlich einen weichen Hinweis als Eingabe hinzufügen, der auf hochrangigen semantischen Beweisen basiert, indem wir Ereignis-Tags des Eingangstons nutzen. Schließlich schlagen wir auch CompA-R-Test vor, einen von Menschen gelabelten Evaluationsdatensatz zur Bewertung der Fähigkeiten von LALMs bei offenen Audio-Frage-Antwort-Aufgaben, die komplexe Argumentation erfordern. Durch automatisierte und Experten-Humanbewertungen zeigen wir, dass GAMA alle anderen LALMs in der Literatur bei vielfältigen Audio-Verständnisaufgaben um 1%-84% übertrifft. Darüber hinaus erweist sich GAMA, abgestimmt auf CompA-R, in seinen komplexen Argumentations- und Anweisungsfähigkeiten als überlegen.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.Summary
AI-Generated Summary