VideoGLaMM: Um Modelo Multimodal de Grande Escala para Ancoragem Visual em Nível de Pixel em Vídeos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
Autores: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
Resumo
O alinhamento granular entre vídeos e texto é um desafio devido à complexa dinâmica espacial e temporal presente nos vídeos. Os Modelos Multimodais de Grande Porte (LMMs) baseados em vídeo existentes lidam com conversas básicas, mas lutam com a ancoragem precisa a nível de pixel em vídeos. Para resolver isso, apresentamos o VideoGLaMM, um LMM projetado para ancoragem granular a nível de pixel em vídeos, baseado em entradas textuais fornecidas pelo utilizador. O nosso projeto conecta perfeitamente três componentes-chave: um Modelo de Linguagem de Grande Porte, um codificador de visão dual que enfatiza detalhes espaciais e temporais, e um decodificador espaço-temporal para geração precisa de máscaras. Esta conexão é facilitada através de adaptadores sintonizáveis V-L e L-V que permitem um alinhamento próximo entre Visão e Linguagem (VL). A arquitetura é treinada para sincronizar elementos espaciais e temporais do conteúdo de vídeo com instruções textuais. Para permitir a ancoragem granular, curadámos um conjunto de dados multimodal com conversas visualmente ancoradas e detalhadas, utilizando um pipeline de anotação semiautomático, resultando num conjunto diversificado de 38k triplos vídeo-pergunta-resposta, juntamente com 83k objetos e 671k máscaras. Avaliamos o VideoGLaMM em três tarefas desafiadoras: Geração de Conversas Ancoradas, Ancoragem Visual e Segmentação de Vídeo por Referência. Os resultados experimentais mostram que o nosso modelo supera consistentemente as abordagens existentes em todas as três tarefas.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.