Video-LLaMA: Un modelo de lenguaje audiovisual ajustado por instrucciones para la comprensión de videos
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Autores: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Resumen
Presentamos Video-LLaMA, un marco multimodal que capacita a los Modelos de Lenguaje de Gran Escala (LLMs) para comprender tanto el contenido visual como auditivo en videos. Video-LLaMA inicia el entrenamiento multimodal a partir de codificadores visuales y de audio preentrenados y congelados, junto con LLMs también congelados. A diferencia de los modelos previos de visión-LLMs que se centran en la comprensión de imágenes estáticas, como MiniGPT-4~zhu2023minigpt y LLaVA~liu2023visualit, Video-LLaMA aborda dos desafíos en la comprensión de videos: (1) capturar los cambios temporales en las escenas visuales, (2) integrar señales audiovisuales. Para el primer desafío, proponemos Video Q-former para extender el codificador de imágenes preentrenado a un codificador de video e introducimos una tarea de generación de texto a partir de video para aprender la correspondencia entre video y lenguaje. Para el segundo desafío, utilizamos ImageBind~girdhar2023imagebind como el codificador de audio preentrenado, que destaca por su capacidad para alinear diferentes modalidades en un espacio de incrustación común. Luego, introducimos un Audio Q-former para aprender tokens de consulta auditiva. Para alinear la salida de ambos codificadores, visual y de audio, con el espacio de incrustación del LLM, entrenamos Video-LLaMA en un conjunto de datos a gran escala de descripción visual y en un conjunto de datos de alta calidad para ajuste instruccional visual. Descubrimos que Video-LLaMA demuestra la capacidad de percibir y comprender el contenido de los videos, generando respuestas significativas basadas en la información visual y auditiva presente en los videos. Esto resalta el potencial de Video-LLaMA como un prototipo prometedor para asistentes de IA audiovisuales. Nuestro código, modelo preentrenado y demostración están disponibles en https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.