MiniGPT4-Video: Avanzando en los Modelos de Lenguaje Multimodales para la Comprensión de Videos con Tokens Visuales-Textuales Intercalados
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
April 4, 2024
Autores: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny
cs.AI
Resumen
Este artículo presenta MiniGPT4-Video, un modelo de lenguaje multimodal de gran escala (LLM) diseñado específicamente para la comprensión de videos. El modelo es capaz de procesar tanto datos visuales temporales como textuales, lo que lo hace experto en entender las complejidades de los videos. Basándose en el éxito de MiniGPT-v2, que destacó en la traducción de características visuales al espacio LLM para imágenes individuales y obtuvo resultados impresionantes en varios benchmarks de imagen-texto, este artículo amplía las capacidades del modelo para procesar una secuencia de fotogramas, permitiéndole comprender videos. MiniGPT4-video no solo considera el contenido visual, sino que también incorpora conversaciones textuales, lo que permite al modelo responder eficazmente a consultas que involucran tanto componentes visuales como textuales. El modelo propuesto supera a los métodos más avanzados existentes, registrando mejoras del 4.22%, 1.13%, 20.82% y 13.1% en los benchmarks MSVD, MSRVTT, TGIF y TVQA, respectivamente. Nuestros modelos y código han sido puestos a disposición del público en https://vision-cair.github.io/MiniGPT4-video/.
English
This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM)
designed specifically for video understanding. The model is capable of
processing both temporal visual and textual data, making it adept at
understanding the complexities of videos. Building upon the success of
MiniGPT-v2, which excelled in translating visual features into the LLM space
for single images and achieved impressive results on various image-text
benchmarks, this paper extends the model's capabilities to process a sequence
of frames, enabling it to comprehend videos. MiniGPT4-video does not only
consider visual content but also incorporates textual conversations, allowing
the model to effectively answer queries involving both visual and text
components. The proposed model outperforms existing state-of-the-art methods,
registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF,
and TVQA benchmarks respectively. Our models and code have been made publicly
available here https://vision-cair.github.io/MiniGPT4-video/Summary
AI-Generated Summary