Видео-SALMONN: Речевые аудио-визуальные крупномасштабные языковые модели
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Авторы: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Аннотация
Понимание речи как элемент более общего понимания видео с использованием крупных языковых моделей на основе аудио-визуальных данных (av-LLM) является критически важным, но недостаточно изученным аспектом. В данной статье предлагается видео-SALMONN, единая энд-ту-энд av-LLM для обработки видео, способная понимать не только последовательности визуальных кадров, аудио-события и музыку, но и речь. Для получения детализированной временной информации, необходимой для понимания речи, сохраняя при этом эффективность для других элементов видео, в данной статье предлагается новая многоуровневая причинно-следственная структура Q-Former с множественным разрешением (MRC Q-Former) для соединения предварительно обученных аудио-визуальных кодировщиков и основной крупной языковой модели. Более того, предлагаются специализированные методы обучения, включая потерю разнообразия и схему смешанного обучения аудио-визуальных данных без пар, для избежания доминирования кадров или модальности. На представленной оценочной бенчмарк-системе речево-аудио-визуального восприятия видео-SALMONN достигает более чем на 25\% абсолютного улучшения точности в задаче видео-QA и более чем на 30\% абсолютного улучшения точности в задачах аудио-визуального QA с участием человеческой речи. Кроме того, видео-SALMONN демонстрирует выдающиеся способности по пониманию видео и логическому мышлению в задачах, которые не имеют аналогов среди других av-LLM. Наш код обучения и модельные точки доступны по ссылке \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.Summary
AI-Generated Summary