ChatPaper.aiChatPaper

GAMA: Um Grande Modelo de Áudio-Linguagem com Capacidades Avançadas de Compreensão de Áudio e Raciocínio Complexo

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

June 17, 2024
Autores: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI

Resumo

Perceber e compreender sons não verbais e fala não verbal é essencial para tomar decisões que nos ajudam a interagir com o nosso entorno. Neste artigo, propomos o GAMA, um novo Modelo de Linguagem e Áudio de Propósito Geral (LALM, na sigla em inglês) com Capacidades Avançadas de Compreensão de Áudio e Raciocínio Complexo. Construímos o GAMA integrando um LLM (Large Language Model) com múltiplos tipos de representações de áudio, incluindo características de um Audio Q-Former personalizado, um agregador multicamadas que combina características de várias camadas de um codificador de áudio. Ajustamos o GAMA em um conjunto de dados de larga escala de áudio e linguagem, o que o aprimora com capacidades de compreensão de áudio. Em seguida, propomos o CompA-R (Ajuste por Instrução para Raciocínio Complexo em Áudio), um conjunto de dados de ajuste por instrução (IT) gerado sinteticamente com instruções que exigem que o modelo realize raciocínio complexo sobre o áudio de entrada. Ajustamos o GAMA com o CompA-R para dotá-lo de habilidades de raciocínio complexo, onde adicionamos ainda um prompt suave como entrada com evidências semânticas de alto nível, aproveitando as etiquetas de eventos do áudio de entrada. Por fim, também propomos o CompA-R-test, um conjunto de dados de avaliação rotulado por humanos para avaliar as capacidades de LALMs em tarefas de resposta a perguntas abertas sobre áudio que exigem raciocínio complexo. Por meio de avaliações automatizadas e por especialistas humanos, mostramos que o GAMA supera todos os outros LALMs da literatura em diversas tarefas de compreensão de áudio, com margens de 1% a 84%. Além disso, o GAMA ajustado com o CompA-R demonstra ser superior em suas capacidades de raciocínio complexo e de seguir instruções.
English
Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.
PDF231December 6, 2024