Видео-SALMONN: Речевые аудио-визуальные крупномасштабные языковые модели

Аннотация

Понимание речи как элемент более общего понимания видео с использованием крупных языковых моделей на основе аудио-визуальных данных (av-LLM) является критически важным, но недостаточно изученным аспектом. В данной статье предлагается видео-SALMONN, единая энд-ту-энд av-LLM для обработки видео, способная понимать не только последовательности визуальных кадров, аудио-события и музыку, но и речь. Для получения детализированной временной информации, необходимой для понимания речи, сохраняя при этом эффективность для других элементов видео, в данной статье предлагается новая многоуровневая причинно-следственная структура Q-Former с множественным разрешением (MRC Q-Former) для соединения предварительно обученных аудио-визуальных кодировщиков и основной крупной языковой модели. Более того, предлагаются специализированные методы обучения, включая потерю разнообразия и схему смешанного обучения аудио-визуальных данных без пар, для избежания доминирования кадров или модальности. На представленной оценочной бенчмарк-системе речево-аудио-визуального восприятия видео-SALMONN достигает более чем на 25\% абсолютного улучшения точности в задаче видео-QA и более чем на 30\% абсолютного улучшения точности в задачах аудио-визуального QA с участием человеческой речи. Кроме того, видео-SALMONN демонстрирует выдающиеся способности по пониманию видео и логическому мышлению в задачах, которые не имеют аналогов среди других av-LLM. Наш код обучения и модельные точки доступны по ссылке \url{https://github.com/bytedance/SALMONN/}.

English

Speech understanding as an element of the more generic video understanding using audio-visual large language models (av-LLMs) is a crucial yet understudied aspect. This paper proposes video-SALMONN, a single end-to-end av-LLM for video processing, which can understand not only visual frame sequences, audio events and music, but speech as well. To obtain fine-grained temporal information required by speech understanding, while keeping efficient for other video elements, this paper proposes a novel multi-resolution causal Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders and the backbone large language model. Moreover, dedicated training approaches including the diversity loss and the unpaired audio-visual mixed training scheme are proposed to avoid frames or modality dominance. On the introduced speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\% absolute accuracy improvements on the video-QA task and over 30\% absolute accuracy improvements on audio-visual QA tasks with human speech. In addition, video-SALMONN demonstrates remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other av-LLMs. Our training code and model checkpoints are available at \url{https://github.com/bytedance/SALMONN/}.

Видео-SALMONN: Речевые аудио-визуальные крупномасштабные языковые модели

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Аннотация

Support