GAMA: Ein großes Audio-Sprachmodell mit fortschrittlichem Audioverständnis und komplexen Argumentationsfähigkeiten

papers.abstract

Das Wahrnehmen und Verstehen von nicht-sprachlichen Klängen und non-verbalen Sprachäußerungen ist entscheidend, um Entscheidungen zu treffen, die uns dabei helfen, mit unserer Umgebung zu interagieren. In diesem Papier schlagen wir GAMA vor, ein neuartiges Allzweck-Großes Audio-Sprachmodell (LALM) mit fortgeschrittenen Audio-Verständnis- und komplexen Argumentationsfähigkeiten. Wir entwickeln GAMA, indem wir ein LLM mit verschiedenen Arten von Audio-Repräsentationen integrieren, einschließlich Merkmalen aus einem benutzerdefinierten Audio-Q-Former, einem mehrschichtigen Aggregator, der Merkmale aus mehreren Schichten eines Audio-Encoders zusammenführt. Wir feinabstimmen GAMA anhand eines umfangreichen Audio-Sprachdatensatzes, der es mit Audio-Verständnisfähigkeiten ausstattet. Als Nächstes schlagen wir CompA-R (Instruktionsabstimmung für komplexe Audio-Argumentation) vor, einen synthetisch generierten Instruktionsabstimmungs (IT)-Datensatz mit Anweisungen, die das Modell dazu auffordern, komplexe Argumentationen über den Eingangston durchzuführen. Wir stimmen GAMA mit CompA-R ab, um es mit komplexen Argumentationsfähigkeiten auszustatten, wobei wir zusätzlich einen weichen Hinweis als Eingabe hinzufügen, der auf hochrangigen semantischen Beweisen basiert, indem wir Ereignis-Tags des Eingangstons nutzen. Schließlich schlagen wir auch CompA-R-Test vor, einen von Menschen gelabelten Evaluationsdatensatz zur Bewertung der Fähigkeiten von LALMs bei offenen Audio-Frage-Antwort-Aufgaben, die komplexe Argumentation erfordern. Durch automatisierte und Experten-Humanbewertungen zeigen wir, dass GAMA alle anderen LALMs in der Literatur bei vielfältigen Audio-Verständnisaufgaben um 1%-84% übertrifft. Darüber hinaus erweist sich GAMA, abgestimmt auf CompA-R, in seinen komplexen Argumentations- und Anweisungsfähigkeiten als überlegen.

English

Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.

GAMA: Ein großes Audio-Sprachmodell mit fortschrittlichem Audioverständnis und komplexen Argumentationsfähigkeiten

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

papers.abstract

Support