VideoGLaMM: Ein großes multimodales Modell für pixelgenaue visuelle Verankerung in Videos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
papers.authors: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
papers.abstract
Die feinkörnige Ausrichtung zwischen Videos und Text ist aufgrund der komplexen räumlichen und zeitlichen Dynamik in Videos eine Herausforderung. Bestehende videobasierte Large Multimodal Models (LMMs) bewältigen grundlegende Konversationen, haben jedoch Schwierigkeiten mit präziser Pixel-basierter Verankerung in Videos. Um dies zu adressieren, stellen wir VideoGLaMM vor, ein LMM, das für die feinkörnige Pixel-basierte Verankerung in Videos basierend auf benutzerdefinierten textuellen Eingaben entwickelt wurde. Unser Design verbindet nahtlos drei Schlüsselkomponenten: ein Large Language Model, einen dualen Vision-Encoder, der sowohl räumliche als auch zeitliche Details betont, und einen räumlich-zeitlichen Decoder für die präzise Maskengenerierung. Diese Verbindung wird durch anpassbare V-L- und L-V-Adapter ermöglicht, die eine enge Vision-Language (VL)-Ausrichtung gewährleisten. Die Architektur wird darauf trainiert, sowohl räumliche als auch zeitliche Elemente des Videoinhalts mit textuellen Anweisungen zu synchronisieren. Um die feinkörnige Verankerung zu ermöglichen, haben wir einen multimodalen Datensatz mit detaillierten visuell verankerten Konversationen mithilfe einer halbautomatischen Annotationspipeline erstellt, was zu einem vielfältigen Satz von 38k Video-QA-Triplets sowie 83k Objekten und 671k Masken führt. Wir evaluieren VideoGLaMM anhand von drei anspruchsvollen Aufgaben: Grounded Conversation Generation, Visual Grounding und Referring Video Segmentation. Die experimentellen Ergebnisse zeigen, dass unser Modell bestehende Ansätze in allen drei Aufgaben konsistent übertrifft.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.