MiniGPT4-Video: Avanzando en los Modelos de Lenguaje Multimodales para la Comprensión de Videos con Tokens Visuales-Textuales Intercalados

Resumen

Este artículo presenta MiniGPT4-Video, un modelo de lenguaje multimodal de gran escala (LLM) diseñado específicamente para la comprensión de videos. El modelo es capaz de procesar tanto datos visuales temporales como textuales, lo que lo hace experto en entender las complejidades de los videos. Basándose en el éxito de MiniGPT-v2, que destacó en la traducción de características visuales al espacio LLM para imágenes individuales y obtuvo resultados impresionantes en varios benchmarks de imagen-texto, este artículo amplía las capacidades del modelo para procesar una secuencia de fotogramas, permitiéndole comprender videos. MiniGPT4-video no solo considera el contenido visual, sino que también incorpora conversaciones textuales, lo que permite al modelo responder eficazmente a consultas que involucran tanto componentes visuales como textuales. El modelo propuesto supera a los métodos más avanzados existentes, registrando mejoras del 4.22%, 1.13%, 20.82% y 13.1% en los benchmarks MSVD, MSRVTT, TGIF y TVQA, respectivamente. Nuestros modelos y código han sido puestos a disposición del público en https://vision-cair.github.io/MiniGPT4-video/.

English

This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM) designed specifically for video understanding. The model is capable of processing both temporal visual and textual data, making it adept at understanding the complexities of videos. Building upon the success of MiniGPT-v2, which excelled in translating visual features into the LLM space for single images and achieved impressive results on various image-text benchmarks, this paper extends the model's capabilities to process a sequence of frames, enabling it to comprehend videos. MiniGPT4-video does not only consider visual content but also incorporates textual conversations, allowing the model to effectively answer queries involving both visual and text components. The proposed model outperforms existing state-of-the-art methods, registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF, and TVQA benchmarks respectively. Our models and code have been made publicly available here https://vision-cair.github.io/MiniGPT4-video/

MiniGPT4-Video: Avanzando en los Modelos de Lenguaje Multimodales para la Comprensión de Videos con Tokens Visuales-Textuales Intercalados

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Resumen

Support