GAMA: Un Modello Audio-Linguistico di Grandi Dimensioni con Capacità Avanzate di Comprensione Audio e Ragionamento Complesso
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
Autori: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
Abstract
Percepire e comprendere i suoni non verbali e il parlato non verbale è essenziale per prendere decisioni che ci aiutano a interagire con l'ambiente circostante. In questo articolo, proponiamo GAMA, un nuovo modello Large Audio-Language Model (LALM) generico con capacità avanzate di comprensione audio e ragionamento complesso. Costruiamo GAMA integrando un LLM con molteplici tipi di rappresentazioni audio, inclusi i feature provenienti da un custom Audio Q-Former, un aggregatore multi-strato che aggrega i feature da più livelli di un encoder audio. Ottimizziamo GAMA su un dataset audio-linguistico su larga scala, che lo arricchisce con capacità di comprensione audio. Successivamente, proponiamo CompA-R (Instruction-Tuning per il Ragionamento Audio Complesso), un dataset di instruction-tuning (IT) generato sinteticamente con istruzioni che richiedono al modello di eseguire ragionamenti complessi sull'audio in input. Eseguiamo l'instruction-tuning di GAMA con CompA-R per dotarlo di capacità di ragionamento complesso, aggiungendo ulteriormente un soft prompt come input con evidenze semantiche di alto livello sfruttando i tag degli eventi dell'audio in input. Infine, proponiamo anche CompA-R-test, un dataset di valutazione etichettato manualmente per valutare le capacità dei LALM su domande aperte di risposta all'audio che richiedono ragionamenti complessi. Attraverso valutazioni automatizzate e da parte di esperti umani, dimostriamo che GAMA supera tutti gli altri LALM presenti in letteratura su diverse attività di comprensione audio con margini dell'1%-84%. Inoltre, GAMA ottimizzato con CompA-R si dimostra superiore nelle sue capacità di ragionamento complesso e di seguire le istruzioni.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.