VideoGLaMM: Een Groot Multimodaal Model voor Pixelnauwkeurige Visuele Verankering in Video's
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
Auteurs: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
Samenvatting
Fijnmazige afstemming tussen video's en tekst is een uitdaging vanwege de complexe ruimtelijke en temporele dynamiek in video's. Bestaande op video gebaseerde Grote Multimodale Modellen (LMM's) kunnen basale gesprekken voeren, maar hebben moeite met precieze pixelgebaseerde verankering in video's. Om dit aan te pakken, introduceren we VideoGLaMM, een LMM ontworpen voor fijnmazige pixelgebaseerde verankering in video's op basis van door de gebruiker verstrekte tekstuele invoer. Ons ontwerp verbindt naadloos drie belangrijke componenten: een Groot Taalmodel, een dubbele visie-encoder die zowel ruimtelijke als temporele details benadrukt, en een spatio-temporele decoder voor nauwkeurige maskergeneratie. Deze verbinding wordt gefaciliteerd via verstelbare V-L- en L-V-adapters die een nauwe Visie-Taal (VL)-afstemming mogelijk maken. De architectuur is getraind om zowel ruimtelijke als temporele elementen van videocontent te synchroniseren met tekstuele instructies. Om fijnmazige verankering mogelijk te maken, hebben we een multimodale dataset samengesteld met gedetailleerde visueel verankerde gesprekken met behulp van een semi-automatisch annotatiepijplijn, wat resulteert in een diverse set van 38k video-VA-triplets samen met 83k objecten en 671k maskers. We evalueren VideoGLaMM op drie uitdagende taken: Gegrond Gespreksgeneratie, Visuele Verankering en Verwijzende Videosegmentatie. Experimentele resultaten tonen aan dat ons model consequent beter presteert dan bestaande benaderingen voor alle drie de taken.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.