VideoGLaMM: Een Groot Multimodaal Model voor Pixelnauwkeurige Visuele Verankering in Video's

Samenvatting

Fijnmazige afstemming tussen video's en tekst is een uitdaging vanwege de complexe ruimtelijke en temporele dynamiek in video's. Bestaande op video gebaseerde Grote Multimodale Modellen (LMM's) kunnen basale gesprekken voeren, maar hebben moeite met precieze pixelgebaseerde verankering in video's. Om dit aan te pakken, introduceren we VideoGLaMM, een LMM ontworpen voor fijnmazige pixelgebaseerde verankering in video's op basis van door de gebruiker verstrekte tekstuele invoer. Ons ontwerp verbindt naadloos drie belangrijke componenten: een Groot Taalmodel, een dubbele visie-encoder die zowel ruimtelijke als temporele details benadrukt, en een spatio-temporele decoder voor nauwkeurige maskergeneratie. Deze verbinding wordt gefaciliteerd via verstelbare V-L- en L-V-adapters die een nauwe Visie-Taal (VL)-afstemming mogelijk maken. De architectuur is getraind om zowel ruimtelijke als temporele elementen van videocontent te synchroniseren met tekstuele instructies. Om fijnmazige verankering mogelijk te maken, hebben we een multimodale dataset samengesteld met gedetailleerde visueel verankerde gesprekken met behulp van een semi-automatisch annotatiepijplijn, wat resulteert in een diverse set van 38k video-VA-triplets samen met 83k objecten en 671k maskers. We evalueren VideoGLaMM op drie uitdagende taken: Gegrond Gespreksgeneratie, Visuele Verankering en Verwijzende Videosegmentatie. Experimentele resultaten tonen aan dat ons model consequent beter presteert dan bestaande benaderingen voor alle drie de taken.

English

Fine-grained alignment between videos and text is challenging due to complex spatial and temporal dynamics in videos. Existing video-based Large Multimodal Models (LMMs) handle basic conversations but struggle with precise pixel-level grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed for fine-grained pixel-level grounding in videos based on user-provided textual inputs. Our design seamlessly connects three key components: a Large Language Model, a dual vision encoder that emphasizes both spatial and temporal details, and a spatio-temporal decoder for accurate mask generation. This connection is facilitated via tunable V-L and L-V adapters that enable close Vision-Language (VL) alignment. The architecture is trained to synchronize both spatial and temporal elements of video content with textual instructions. To enable fine-grained grounding, we curate a multimodal dataset featuring detailed visually-grounded conversations using a semiautomatic annotation pipeline, resulting in a diverse set of 38k video-QA triplets along with 83k objects and 671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded Conversation Generation, Visual Grounding, and Referring Video Segmentation. Experimental results show that our model consistently outperforms existing approaches across all three tasks.

VideoGLaMM: Een Groot Multimodaal Model voor Pixelnauwkeurige Visuele Verankering in Video's

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Samenvatting

Support