CoPE-VideoLM: Primitivas de Codec para Modelos de Linguagem de Vídeo Eficientes

Resumo

Os Modelos de Linguagem de Vídeo (VideoLMs) capacitam sistemas de IA para compreender a dinâmica temporal em vídeos. Para se adequarem à restrição do tamanho máximo do contexto, os métodos atuais utilizam amostragem de quadros-chave, o que pode omitir tanto eventos de nível macro quanto detalhes de nível micro devido à cobertura temporal esparsa. Além disso, o processamento de imagens completas e dos seus *tokens* para cada quadro acarreta uma sobrecarga computacional substancial. Para superar estas limitações, propomos a utilização de primitivas de codec de vídeo (especificamente vetores de movimento e resíduos) que codificam nativamente a redundância e a esparsidade do vídeo, sem exigir a codificação dispendiosa da imagem completa para a maioria dos quadros. Para tal, introduzimos codificadores leves baseados em *transformers* que agregam as primitivas do codec e alinham as suas representações com os *embeddings* do codificador de imagem através de uma estratégia de pré-treinamento que acelera a convergência durante o ajuste fino de ponta a ponta. A nossa abordagem reduz o tempo até o primeiro *token* em até 86% e a utilização de *tokens* em até 93% em comparação com os VideoLMs padrão. Além disso, ao variar as densidades de quadros-chave e primitivas de codec, conseguimos manter ou superar o desempenho em 14 benchmarks diversos de compreensão de vídeo, abrangendo questionamento geral, raciocínio temporal, compreensão de longa duração e compreensão espacial de cenas.

English

Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.

CoPE-VideoLM: Primitivas de Codec para Modelos de Linguagem de Vídeo Eficientes

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Resumo

Support