VideoGLaMM: Um Modelo Multimodal de Grande Escala para Ancoragem Visual em Nível de Pixel em Vídeos

Resumo

O alinhamento granular entre vídeos e texto é um desafio devido à complexa dinâmica espacial e temporal presente nos vídeos. Os Modelos Multimodais de Grande Porte (LMMs) baseados em vídeo existentes lidam com conversas básicas, mas lutam com a ancoragem precisa a nível de pixel em vídeos. Para resolver isso, apresentamos o VideoGLaMM, um LMM projetado para ancoragem granular a nível de pixel em vídeos, baseado em entradas textuais fornecidas pelo utilizador. O nosso projeto conecta perfeitamente três componentes-chave: um Modelo de Linguagem de Grande Porte, um codificador de visão dual que enfatiza detalhes espaciais e temporais, e um decodificador espaço-temporal para geração precisa de máscaras. Esta conexão é facilitada através de adaptadores sintonizáveis V-L e L-V que permitem um alinhamento próximo entre Visão e Linguagem (VL). A arquitetura é treinada para sincronizar elementos espaciais e temporais do conteúdo de vídeo com instruções textuais. Para permitir a ancoragem granular, curadámos um conjunto de dados multimodal com conversas visualmente ancoradas e detalhadas, utilizando um pipeline de anotação semiautomático, resultando num conjunto diversificado de 38k triplos vídeo-pergunta-resposta, juntamente com 83k objetos e 671k máscaras. Avaliamos o VideoGLaMM em três tarefas desafiadoras: Geração de Conversas Ancoradas, Ancoragem Visual e Segmentação de Vídeo por Referência. Os resultados experimentais mostram que o nosso modelo supera consistentemente as abordagens existentes em todas as três tarefas.

English

Fine-grained alignment between videos and text is challenging due to complex spatial and temporal dynamics in videos. Existing video-based Large Multimodal Models (LMMs) handle basic conversations but struggle with precise pixel-level grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed for fine-grained pixel-level grounding in videos based on user-provided textual inputs. Our design seamlessly connects three key components: a Large Language Model, a dual vision encoder that emphasizes both spatial and temporal details, and a spatio-temporal decoder for accurate mask generation. This connection is facilitated via tunable V-L and L-V adapters that enable close Vision-Language (VL) alignment. The architecture is trained to synchronize both spatial and temporal elements of video content with textual instructions. To enable fine-grained grounding, we curate a multimodal dataset featuring detailed visually-grounded conversations using a semiautomatic annotation pipeline, resulting in a diverse set of 38k video-QA triplets along with 83k objects and 671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded Conversation Generation, Visual Grounding, and Referring Video Segmentation. Experimental results show that our model consistently outperforms existing approaches across all three tasks.

VideoGLaMM: Um Modelo Multimodal de Grande Escala para Ancoragem Visual em Nível de Pixel em Vídeos

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Resumo

Support