GAMA: Een groot audio-taalmodel met geavanceerde audio-begrip en complexe redeneervaardigheden

Samenvatting

Het waarnemen en begrijpen van niet-spraakgeluiden en non-verbale spraak is essentieel voor het nemen van beslissingen die ons helpen om te interageren met onze omgeving. In dit artikel introduceren we GAMA, een nieuw General-purpose Large Audio-Language Model (LALM) met geavanceerde audio-begrip en complexe redeneervaardigheden. We bouwen GAMA door een LLM te integreren met meerdere soorten audio-representaties, waaronder kenmerken van een aangepaste Audio Q-Former, een multi-layer aggregator die kenmerken uit meerdere lagen van een audio-encoder samenvoegt. We fine-tunen GAMA op een grootschalige audio-taal dataset, wat het uitrust met audio-begrip vaardigheden. Vervolgens introduceren we CompA-R (Instruction-Tuning voor Complex Audio Reasoning), een synthetisch gegenereerde instruction-tuning (IT) dataset met instructies die het model vereisen om complexe redeneringen uit te voeren op de input audio. We instruction-tunen GAMA met CompA-R om het te voorzien van complexe redeneervaardigheden, waarbij we verder een soft prompt toevoegen als input met hoogwaardig semantisch bewijs door gebruik te maken van event tags van de input audio. Tot slot stellen we ook CompA-R-test voor, een door mensen gelabelde evaluatie dataset voor het beoordelen van de capaciteiten van LALMs op open-einde audio-vraagbeantwoording die complexe redenering vereist. Door geautomatiseerde en expert menselijke evaluaties tonen we aan dat GAMA alle andere LALMs in de literatuur overtreft op diverse audio-begrip taken met marges van 1%-84%. Bovendien blijkt GAMA, getraind op CompA-R, superieur in zijn complexe redeneer- en instructievolgcapaciteiten.

English

Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.

GAMA: Een groot audio-taalmodel met geavanceerde audio-begrip en complexe redeneervaardigheden

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Samenvatting

Support