video-SALMONN: Modelos de Lenguaje de Gran Escala Audio-Visuales Mejorados con Voz
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Autores: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Resumen
La comprensión del habla como un elemento de la comprensión de video más genérica utilizando modelos de lenguaje grande audio-visuales (av-LLMs) es un aspecto crucial pero poco estudiado. Este artículo propone video-SALMONN, un av-LLM único de extremo a extremo para el procesamiento de video, que puede comprender no solo secuencias de fotogramas visuales, eventos de audio y música, sino también el habla. Para obtener la información temporal detallada requerida por la comprensión del habla, manteniendo la eficiencia para otros elementos del video, este artículo propone una novedosa estructura de Q-Former causal de múltiples resoluciones (MRC Q-Former) para conectar codificadores audio-visuales preentrenados y el modelo de lenguaje grande principal. Además, se proponen enfoques de entrenamiento dedicados, incluyendo la pérdida de diversidad y el esquema de entrenamiento mixto audio-visual no emparejado, para evitar el dominio de fotogramas o modalidades. En el benchmark de evaluación audio-visual con habla introducido, video-SALMONN logra mejoras de más del 25% en precisión absoluta en la tarea de preguntas y respuestas sobre video (video-QA) y más del 30% en precisión absoluta en tareas de preguntas y respuestas audio-visuales con habla humana. Además, video-SALMONN demuestra habilidades notables de comprensión y razonamiento de video en tareas que no tienen precedentes en otros av-LLMs. Nuestro código de entrenamiento y puntos de control del modelo están disponibles en \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.Summary
AI-Generated Summary