ChatPaper.aiChatPaper

CoPE-VideoLM : Primitives Codec pour des Modèles de Langage Vidéo Efficaces

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

February 13, 2026
papers.authors: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI

papers.abstract

Les modèles de langage vidéo (VideoLMs) permettent aux systèmes d'IA de comprendre la dynamique temporelle des vidéos. Pour respecter la contrainte de la fenêtre contextuelle maximale, les méthodes actuelles utilisent l'échantillonnage d'images clés, ce qui peut omettre à la fois les événements de niveau macro et les détails de niveau micro en raison de la couverture temporelle éparse. De plus, le traitement des images complètes et de leurs tokens pour chaque frame entraîne une surcharge computationnelle substantielle. Pour remédier à ces limitations, nous proposons d'exploiter les primitives des codecs vidéo (spécifiquement les vecteurs de mouvement et les résidus) qui encodent naturellement la redondance et la sparsité vidéo sans nécessiter un encodage d'image complet coûteux pour la plupart des frames. À cette fin, nous introduisons des encodeurs légers basés sur des transformers qui agrègent les primitives des codecs et alignent leurs représentations avec les embeddings des encodeurs d'images grâce à une stratégie de pré-entraînement qui accélère la convergence lors du fine-tuning de bout en bout. Notre approche réduit le temps jusqu'au premier token jusqu'à 86 % et l'utilisation de tokens jusqu'à 93 % par rapport aux VideoLMs standard. De plus, en faisant varier les densités d'images clés et de primitives de codec, nous sommes capables de maintenir ou de dépasser les performances sur 14 benchmarks diversifiés de compréhension vidéo couvrant la question-réponse générale, le raisonnement temporel, la compréhension de long terme et la compréhension spatiale des scènes.
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.
PDF232February 17, 2026