CoPE-VideoLM: Primitivas de Codec para Modelos de Lenguaje de Video Eficientes
CoPE-VideoLM: Codec Primitives For Efficient Video Language Models
February 13, 2026
Autores: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI
Resumen
Los Modelos de Lenguaje de Video (VideoLMs) permiten a los sistemas de IA comprender la dinámica temporal en videos. Para adaptarse a la restricción de la ventana de contexto máximo, los métodos actuales utilizan muestreo de fotogramas clave, lo que puede omitir tanto eventos a nivel macro como detalles a nivel micro debido a la cobertura temporal dispersa. Además, procesar imágenes completas y sus tokens para cada fotograma conlleva una sobrecarga computacional sustancial. Para abordar estas limitaciones, proponemos aprovechar las primitivas de códec de video (específicamente vectores de movimiento y residuos) que codifican de forma nativa la redundancia y la dispersión del video sin requerir una costosa codificación de imagen completa para la mayoría de los fotogramas. Con este fin, presentamos codificadores ligeros basados en transformadores que agregan primitivas de códec y alinean sus representaciones con los embeddings del codificador de imágenes mediante una estrategia de preentrenamiento que acelera la convergencia durante el ajuste fino de extremo a extremo. Nuestro enfoque reduce el tiempo hasta el primer token hasta en un 86% y el uso de tokens hasta en un 93% en comparación con los VideoLMs estándar. Además, al variar las densidades de fotogramas clave y primitivas de códec, logramos mantener o superar el rendimiento en 14 benchmarks diversos de comprensión de video que abarcan respuesta a preguntas generales, razonamiento temporal, comprensión de formato largo y comprensión de escenas espaciales.
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.