VideoGLaMM: ビデオにおけるピクセルレベルの視覚的グラウンディングのための大規模マルチモーダルモデル
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
著者: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
要旨
ビデオとテキストの細粒度なアラインメントは、ビデオ内の複雑な空間的および時間的ダイナミクスにより困難である。既存のビデオベースの大規模マルチモーダルモデル(LMM)は基本的な会話を処理できるが、ビデオ内の正確なピクセルレベルのグラウンディングには苦戦している。この問題に対処するため、ユーザー提供のテキスト入力に基づいてビデオ内の細粒度なピクセルレベルのグラウンディングを可能にするVideoGLaMMを提案する。我々の設計は、大規模言語モデル、空間的および時間的詳細を強調するデュアルビジョンエンコーダ、正確なマスク生成のための時空間デコーダという3つの主要コンポーネントをシームレスに接続する。この接続は、密接なビジョンと言語(VL)のアラインメントを可能にする調整可能なV-LおよびL-Vアダプターによって促進される。このアーキテクチャは、ビデオコンテンツの空間的および時間的要素をテキスト指示と同期させるように訓練されている。細粒度なグラウンディングを可能にするため、半自動アノテーションパイプラインを使用して詳細な視覚的グラウンディング会話を特徴とするマルチモーダルデータセットをキュレーションし、38kのビデオ-QAトリプレット、83kのオブジェクト、および671kのマスクを含む多様なセットを作成した。VideoGLaMMを、グラウンディング会話生成、視覚的グラウンディング、および参照ビデオセグメンテーションという3つの挑戦的なタスクで評価した。実験結果は、我々のモデルがこれら3つのタスクすべてにおいて既存のアプローチを一貫して上回ることを示している。
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.