GAMA : Un modèle audio-langage de grande envergure doté de capacités avancées de compréhension audio et de raisonnement complexe
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
papers.authors: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
papers.abstract
La perception et la compréhension des sons non vocaux et de la parole non verbale sont essentielles pour prendre des décisions qui nous aident à interagir avec notre environnement. Dans cet article, nous proposons GAMA, un nouveau modèle audio-langage généraliste de grande envergure (LALM) doté de capacités avancées de compréhension audio et de raisonnement complexe. Nous construisons GAMA en intégrant un LLM avec plusieurs types de représentations audio, y compris des caractéristiques issues d'un Audio Q-Former personnalisé, un agrégateur multicouche qui regroupe les caractéristiques de plusieurs couches d'un encodeur audio. Nous affinons GAMA sur un vaste ensemble de données audio-langage, ce qui lui confère des capacités de compréhension audio. Ensuite, nous proposons CompA-R (Instruction-Tuning pour le raisonnement audio complexe), un ensemble de données d'instruction-tuning (IT) généré de manière synthétique avec des instructions qui nécessitent que le modèle effectue un raisonnement complexe sur l'audio en entrée. Nous ajustons GAMA avec CompA-R pour lui attribuer des capacités de raisonnement complexe, en ajoutant également une invite douce en entrée avec des preuves sémantiques de haut niveau en exploitant les étiquettes d'événements de l'audio en entrée. Enfin, nous proposons également CompA-R-test, un ensemble de données d'évaluation étiqueté par des humains pour évaluer les capacités des LALM sur des questions-réponses audio ouvertes nécessitant un raisonnement complexe. Grâce à des évaluations automatisées et expertes par des humains, nous montrons que GAMA surpasse tous les autres LALM de la littérature sur diverses tâches de compréhension audio avec des marges de 1% à 84%. De plus, GAMA ajusté avec CompA-R s'avère supérieur dans ses capacités de raisonnement complexe et de suivi d'instructions.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.