video-SALMONN: Modelos de Linguagem de Grande Escala Audiovisuais Aprimorados por Fala
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Autores: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Resumo
A compreensão da fala como um elemento da compreensão de vídeo mais genérica usando modelos de linguagem audiovisuais grandes (av-LLMs) é um aspecto crucial, porém pouco estudado. Este artigo propõe o video-SALMONN, um único av-LLM de ponta a ponta para processamento de vídeo, que pode compreender não apenas sequências de quadros visuais, eventos de áudio e música, mas também a fala. Para obter informações temporais detalhadas necessárias para a compreensão da fala, mantendo-se eficiente para outros elementos de vídeo, este artigo propõe uma estrutura inovadora de Q-Former causal de múltiplas resoluções (MRC Q-Former) para conectar codificadores audiovisuais pré-treinados e o modelo de linguagem grande principal. Além disso, abordagens de treinamento dedicadas, incluindo a perda de diversidade e o esquema de treinamento misto audiovisual não pareado, são propostas para evitar a dominância de quadros ou modalidades. No benchmark de avaliação audiovisual de fala introduzido, o video-SALMONN alcança mais de 25% de melhorias absolutas de precisão na tarefa de perguntas e respostas em vídeo e mais de 30% de melhorias absolutas de precisão nas tarefas de perguntas e respostas audiovisuais com fala humana. Além disso, o video-SALMONN demonstra notáveis habilidades de compreensão e raciocínio de vídeo em tarefas sem precedentes por outros av-LLMs. Nosso código de treinamento e checkpoints do modelo estão disponíveis em \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.