GAMA: Un Modelo de Lenguaje y Audio a Gran Escala con Comprensión Avanzada de Audio y Habilidades de Razonamiento Complejo
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
June 17, 2024
Autores: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
Resumen
La percepción y comprensión de sonidos no verbales y del habla no verbal es esencial para tomar decisiones que nos ayuden a interactuar con nuestro entorno. En este artículo, proponemos GAMA, un novedoso Modelo de Lenguaje y Audio de Propósito General (LALM, por sus siglas en inglés) con Capacidades Avanzadas de Comprensión de Audio y Razonamiento Complejo. Construimos GAMA integrando un LLM con múltiples tipos de representaciones de audio, incluyendo características de un Audio Q-Former personalizado, un agregador multicapa que combina características de múltiples capas de un codificador de audio. Ajustamos GAMA en un conjunto de datos a gran escala de audio y lenguaje, lo que lo dota de capacidades de comprensión de audio. A continuación, proponemos CompA-R (Ajuste por Instrucciones para Razonamiento Complejo en Audio), un conjunto de datos de ajuste por instrucciones (IT) generado sintéticamente con instrucciones que requieren que el modelo realice un razonamiento complejo sobre el audio de entrada. Ajustamos GAMA con CompA-R para dotarlo de habilidades de razonamiento complejo, donde además añadimos un prompt suave como entrada con evidencia semántica de alto nivel aprovechando las etiquetas de eventos del audio de entrada. Finalmente, también proponemos CompA-R-test, un conjunto de datos de evaluación etiquetado por humanos para evaluar las capacidades de los LALMs en tareas de preguntas y respuestas abiertas sobre audio que requieren razonamiento complejo. Mediante evaluaciones automatizadas y por expertos humanos, demostramos que GAMA supera a todos los demás LALMs en la literatura en diversas tareas de comprensión de audio con márgenes del 1% al 84%. Además, GAMA ajustado con CompA-R demuestra ser superior en sus capacidades de razonamiento complejo y seguimiento de instrucciones.
English
Perceiving and understanding non-speech sounds and non-verbal speech is
essential to making decisions that help us interact with our surroundings. In
this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model
(LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We
build GAMA by integrating an LLM with multiple types of audio representations,
including features from a custom Audio Q-Former, a multi-layer aggregator that
aggregates features from multiple layers of an audio encoder. We fine-tune GAMA
on a large-scale audio-language dataset, which augments it with audio
understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for
Complex Audio Reasoning), a synthetically generated instruction-tuning (IT)
dataset with instructions that require the model to perform complex reasoning
on the input audio. We instruction-tune GAMA with CompA-R to endow it with
complex reasoning abilities, where we further add a soft prompt as input with
high-level semantic evidence by leveraging event tags of the input audio.
Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for
evaluating the capabilities of LALMs on open-ended audio question-answering
that requires complex reasoning. Through automated and expert human
evaluations, we show that GAMA outperforms all other LALMs in literature on
diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on
CompA-R proves to be superior in its complex reasoning and instruction
following capabilities.Summary
AI-Generated Summary