GAMA: Een groot audio-taalmodel met geavanceerde audio-begrip en complexe redeneervaardigheden
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
Auteurs: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
Samenvatting
Het waarnemen en begrijpen van niet-spraakgeluiden en non-verbale spraak is essentieel voor het nemen van beslissingen die ons helpen om te interageren met onze omgeving. In dit artikel introduceren we GAMA, een nieuw General-purpose Large Audio-Language Model (LALM) met geavanceerde audio-begrip en complexe redeneervaardigheden. We bouwen GAMA door een LLM te integreren met meerdere soorten audio-representaties, waaronder kenmerken van een aangepaste Audio Q-Former, een multi-layer aggregator die kenmerken uit meerdere lagen van een audio-encoder samenvoegt. We fine-tunen GAMA op een grootschalige audio-taal dataset, wat het uitrust met audio-begrip vaardigheden. Vervolgens introduceren we CompA-R (Instruction-Tuning voor Complex Audio Reasoning), een synthetisch gegenereerde instruction-tuning (IT) dataset met instructies die het model vereisen om complexe redeneringen uit te voeren op de input audio. We instruction-tunen GAMA met CompA-R om het te voorzien van complexe redeneervaardigheden, waarbij we verder een soft prompt toevoegen als input met hoogwaardig semantisch bewijs door gebruik te maken van event tags van de input audio. Tot slot stellen we ook CompA-R-test voor, een door mensen gelabelde evaluatie dataset voor het beoordelen van de capaciteiten van LALMs op open-einde audio-vraagbeantwoording die complexe redenering vereist. Door geautomatiseerde en expert menselijke evaluaties tonen we aan dat GAMA alle andere LALMs in de literatuur overtreft op diverse audio-begrip taken met marges van 1%-84%. Bovendien blijkt GAMA, getraind op CompA-R, superieur in zijn complexe redeneer- en instructievolgcapaciteiten.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.