VideoGLaMM : Un modèle multimodal de grande envergure pour l'ancrage visuel au niveau des pixels dans les vidéos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
papers.authors: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
papers.abstract
L'alignement fin entre les vidéos et le texte est un défi en raison de la dynamique spatiale et temporelle complexe des vidéos. Les modèles multimodaux de grande taille (LMM) existants basés sur la vidéo gèrent des conversations basiques mais peinent à réaliser un ancrage précis au niveau des pixels dans les vidéos. Pour résoudre ce problème, nous introduisons VideoGLaMM, un LMM conçu pour un ancrage fin au niveau des pixels dans les vidéos basé sur des entrées textuelles fournies par l'utilisateur. Notre conception relie de manière fluide trois composants clés : un modèle de langage de grande taille, un encodeur visuel dual qui met l'accent à la fois sur les détails spatiaux et temporels, et un décodeur spatio-temporel pour la génération précise de masques. Cette connexion est facilitée par des adaptateurs V-L et L-V ajustables qui permettent un alignement étroit entre la vision et le langage (VL). L'architecture est entraînée pour synchroniser à la fois les éléments spatiaux et temporels du contenu vidéo avec les instructions textuelles. Pour permettre un ancrage fin, nous avons constitué un ensemble de données multimodales comportant des conversations visuellement ancrées et détaillées en utilisant un pipeline d'annotation semi-automatique, aboutissant à un ensemble diversifié de 38k triplets vidéo-QA ainsi que 83k objets et 671k masques. Nous évaluons VideoGLaMM sur trois tâches difficiles : la génération de conversations ancrées, l'ancrage visuel et la segmentation vidéo référentielle. Les résultats expérimentaux montrent que notre modèle surpasse systématiquement les approches existantes dans les trois tâches.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.