VideoGLaMM: Un Grande Modello Multimodale per il Grounding Visivo a Livello di Pixel nei Video
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
Autori: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
Abstract
L'allineamento granulare tra video e testo risulta complesso a causa delle dinamiche spaziali e temporali intricate presenti nei video. I grandi modelli multimodali (LMM) basati su video attuali gestiscono conversazioni basilari, ma faticano a ottenere un grounding preciso a livello di pixel nei video. Per affrontare questa problematica, introduciamo VideoGLaMM, un LMM progettato per il grounding granulare a livello di pixel nei video basato su input testuali forniti dall'utente. Il nostro design collega perfettamente tre componenti chiave: un Large Language Model, un encoder visivo duale che enfatizza sia i dettagli spaziali che temporali, e un decoder spazio-temporale per la generazione accurata di maschere. Questa connessione è facilitata tramite adattatori sintonizzabili V-L e L-V che abilitano un stretto allineamento Visione-Linguaggio (VL). L'architettura è addestrata per sincronizzare sia gli elementi spaziali che temporali del contenuto video con le istruzioni testuali. Per abilitare il grounding granulare, abbiamo curato un dataset multimodale che presenta conversazioni dettagliate e visivamente ancorate utilizzando una pipeline di annotazione semi-automatica, ottenendo un insieme diversificato di 38k triplette video-domanda-risposta insieme a 83k oggetti e 671k maschere. Valutiamo VideoGLaMM su tre compiti impegnativi: Generazione di Conversazioni Ancorate, Grounding Visivo e Segmentazione Video Referenziale. I risultati sperimentali dimostrano che il nostro modello supera costantemente gli approcci esistenti in tutti e tre i compiti.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.