CoPE-VideoLM: Codec-Primitive für effiziente Video-Sprachmodelle
CoPE-VideoLM: Codec Primitives For Efficient Video Language Models
February 13, 2026
papers.authors: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI
papers.abstract
Video Language Models (VideoLMs) befähigen KI-Systeme, zeitliche Dynamiken in Videos zu verstehen. Um der Beschränkung durch das maximale Kontextfenster zu genügen, verwenden aktuelle Methoden die Schlüsselbildabtastung, die aufgrund der spärlichen zeitlichen Abdeckung sowohl makroskopische Ereignisse als auch mikroskopische Details verpassen kann. Darüber hinaus verursacht die Verarbeitung vollständiger Bilder und ihrer Token für jedes Einzelbild erheblichen Rechenaufwand. Um diese Einschränkungen zu adressieren, schlagen wir vor, Video-Codec-Primitive (insbesondere Bewegungsvektoren und Residuen) zu nutzen, die von Natur aus Redundanz und Sparsamkeit im Video kodieren, ohne für die meisten Bilder eine aufwändige Vollbildkodierung zu erfordern. Zu diesem Zweck führen wir leichtgewichtige, transformerbasierte Encoder ein, die Codec-Primitive aggregieren und ihre Repräsentationen durch eine Vor-Trainingsstrategie mit den Einbettungen des Bildencoders in Einklang bringen, was die Konvergenz während des End-to-End-Feintunings beschleunigt. Unser Ansatz reduziert die Zeit bis zum ersten Token um bis zu 86 % und die Token-Nutzung um bis zu 93 % im Vergleich zu Standard-VideoLMs. Darüber hinaus können wir durch Variation der Dichte von Schlüsselbildern und Codec-Primitiven die Leistung auf 14 verschiedenen Videoverständnis-Benchmarks, die allgemeine Fragebeantwortung, zeitliches Schließen, Langzeitverständnis und räumliches Szenenverständnis umfassen, halten oder übertreffen.
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.