ChatPaper.aiChatPaper

MiniGPT4-Video: Vooruitgang in Multimodale LLM's voor Videobegrip met Geïnterlinieerde Visueel-Textuele Tokens

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

April 4, 2024
Auteurs: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny
cs.AI

Samenvatting

Dit artikel introduceert MiniGPT4-Video, een multimodaal Large Language Model (LLM) dat specifiek is ontworpen voor videobegrip. Het model is in staat om zowel temporele visuele als tekstuele gegevens te verwerken, waardoor het uitblinkt in het begrijpen van de complexiteit van video's. Voortbouwend op het succes van MiniGPT-v2, dat uitmuntte in het vertalen van visuele kenmerken naar de LLM-ruimte voor afzonderlijke afbeeldingen en indrukwekkende resultaten behaalde op verschillende beeld-tekst benchmarks, breidt dit artikel de mogelijkheden van het model uit om een reeks frames te verwerken, waardoor het video's kan begrijpen. MiniGPT4-video houdt niet alleen rekening met visuele inhoud, maar integreert ook tekstuele conversaties, waardoor het model effectief vragen kan beantwoorden die zowel visuele als tekstuele componenten omvatten. Het voorgestelde model overtreft bestaande state-of-the-art methoden, met winsten van 4,22%, 1,13%, 20,82% en 13,1% op respectievelijk de MSVD, MSRVTT, TGIF en TVQA benchmarks. Onze modellen en code zijn openbaar beschikbaar gemaakt op https://vision-cair.github.io/MiniGPT4-video/.
English
This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM) designed specifically for video understanding. The model is capable of processing both temporal visual and textual data, making it adept at understanding the complexities of videos. Building upon the success of MiniGPT-v2, which excelled in translating visual features into the LLM space for single images and achieved impressive results on various image-text benchmarks, this paper extends the model's capabilities to process a sequence of frames, enabling it to comprehend videos. MiniGPT4-video does not only consider visual content but also incorporates textual conversations, allowing the model to effectively answer queries involving both visual and text components. The proposed model outperforms existing state-of-the-art methods, registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF, and TVQA benchmarks respectively. Our models and code have been made publicly available here https://vision-cair.github.io/MiniGPT4-video/
PDF273February 8, 2026