VideoGLaMM: 비디오 내 픽셀 수준 시각적 그라운딩을 위한 대규모 멀티모달 모델
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
저자: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
초록
비디오와 텍스트 간의 세밀한 정렬은 비디오 내 복잡한 공간적 및 시간적 역학으로 인해 어려운 과제입니다. 기존의 비디오 기반 대형 다중모달 모델(LMM)은 기본적인 대화를 처리할 수 있지만, 비디오 내 정확한 픽셀 수준의 접지에는 어려움을 겪습니다. 이를 해결하기 위해, 우리는 사용자 제공 텍스트 입력을 기반으로 비디오 내 세밀한 픽셀 수준의 접지를 위해 설계된 LMM인 VideoGLaMM을 소개합니다. 우리의 설계는 세 가지 주요 구성 요소를 원활하게 연결합니다: 대형 언어 모델, 공간적 및 시간적 세부 사항을 강조하는 이중 비전 인코더, 그리고 정확한 마스크 생성을 위한 시공간 디코더입니다. 이 연결은 Vision-Language(VL) 정렬을 가능하게 하는 조정 가능한 V-L 및 L-V 어댑터를 통해 이루어집니다. 이 아키텍처는 비디오 콘텐츠의 공간적 및 시간적 요소를 텍스트 지시와 동기화하도록 훈련됩니다. 세밀한 접지를 가능하게 하기 위해, 우리는 반자동 주석 파이프라인을 사용하여 시각적으로 접지된 상세한 대화를 포함한 다중모달 데이터셋을 구축하였으며, 이는 38k개의 비디오-QA 트리플렛과 83k개의 객체, 그리고 671k개의 마스크로 구성된 다양한 데이터셋을 결과로 얻었습니다. 우리는 VideoGLaMM을 세 가지 도전적인 작업에서 평가합니다: 접지된 대화 생성, 시각적 접지, 그리고 참조 비디오 분할. 실험 결과는 우리의 모델이 이 세 가지 작업 모두에서 기존 접근법을 일관되게 능가함을 보여줍니다.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.