ChatPaper.aiChatPaper

GAMA: Большая аудио-языковая модель с продвинутым пониманием аудио и сложными способностями к рассуждениям.

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

June 17, 2024
Авторы: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI

Аннотация

Восприятие и понимание звуков, не являющихся речью, и невербальной речи существенно для принятия решений, которые помогают нам взаимодействовать с окружающей средой. В данной статье мы предлагаем GAMA, новую Общепринятую Большую Аудио-Языковую Модель (LALM) с Расширенным Пониманием Аудио и Сложными Размышлениями. Мы создаем GAMA, интегрируя LLM с несколькими типами аудио-представлений, включая характеристики из индивидуального Аудио Q-Формера, многослойного агрегатора, который агрегирует характеристики из нескольких слоев аудио-кодера. Мы донастраиваем GAMA на обширном аудио-языковом наборе данных, что дополняет его возможностями понимания аудио. Затем мы предлагаем CompA-R (Инструкционная Настройка для Сложного Аудио-Рассуждения), синтетически созданный набор данных для инструкционной настройки (IT) с инструкциями, требующими от модели выполнения сложных рассуждений над входным аудио. Мы настраиваем GAMA по инструкциям с помощью CompA-R, чтобы наделить его способностями к сложным рассуждениям, где мы также добавляем мягкий подсказывающий ввод с высокоуровневым семантическим доказательством, используя теги событий входного аудио. Наконец, мы также предлагаем CompA-R-test, набор данных для оценки, размеченный людьми, для оценки возможностей LALM в открытом аудио-вопросно-ответном формате, требующем сложных рассуждений. Через автоматизированные и экспертные оценки мы показываем, что GAMA превосходит все другие LALM в литературе по разнообразным задачам понимания аудио на 1%-84%. Кроме того, GAMA, настроенный по инструкциям CompA-R, доказывает свою превосходство в сложных рассуждениях и способности следовать инструкциям.
English
Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.

Summary

AI-Generated Summary

PDF201December 6, 2024