MiniGPT4-Video: Avançando os LLMs Multimodais para Compreensão de Vídeo com Tokens Visuais-Textuais Intercalados
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
April 4, 2024
Autores: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny
cs.AI
Resumo
Este artigo apresenta o MiniGPT4-Video, um modelo de linguagem de grande escala (LLM) multimodal projetado especificamente para a compreensão de vídeos. O modelo é capaz de processar tanto dados visuais temporais quanto textuais, tornando-o apto a entender as complexidades dos vídeos. Com base no sucesso do MiniGPT-v2, que se destacou na tradução de características visuais para o espaço LLM em imagens únicas e obteve resultados impressionantes em vários benchmarks de imagem-texto, este artigo estende as capacidades do modelo para processar uma sequência de quadros, permitindo que ele compreenda vídeos. O MiniGPT4-Video não apenas considera o conteúdo visual, mas também incorpora conversas textuais, permitindo que o modelo responda efetivamente a consultas que envolvem componentes visuais e textuais. O modelo proposto supera os métodos state-of-the-art existentes, registrando ganhos de 4,22%, 1,13%, 20,82% e 13,1% nos benchmarks MSVD, MSRVTT, TGIF e TVQA, respectivamente. Nossos modelos e código estão disponíveis publicamente em https://vision-cair.github.io/MiniGPT4-video/.
English
This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM)
designed specifically for video understanding. The model is capable of
processing both temporal visual and textual data, making it adept at
understanding the complexities of videos. Building upon the success of
MiniGPT-v2, which excelled in translating visual features into the LLM space
for single images and achieved impressive results on various image-text
benchmarks, this paper extends the model's capabilities to process a sequence
of frames, enabling it to comprehend videos. MiniGPT4-video does not only
consider visual content but also incorporates textual conversations, allowing
the model to effectively answer queries involving both visual and text
components. The proposed model outperforms existing state-of-the-art methods,
registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF,
and TVQA benchmarks respectively. Our models and code have been made publicly
available here https://vision-cair.github.io/MiniGPT4-video/