CoPE-VideoLM: 효율적인 비디오 언어 모델을 위한 코덱 프리미티브
CoPE-VideoLM: Codec Primitives For Efficient Video Language Models
February 13, 2026
저자: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI
초록
비디오 언어 모델(VideoLM)은 AI 시스템이 비디오의 시간적 역학을 이해할 수 있도록 지원합니다. 최대 컨텍스트 윈도우 제약에 맞추기 위해 기존 방법은 키프레임 샘플링을 사용하는데, 이는 희소한 시간적 커버리지로 인해 거시 수준의 이벤트와 미시 수준의 세부 사항을 모두 놓칠 수 있습니다. 더욱이 각 프레임마다 전체 이미지와 해당 토큰을 처리하려면 상당한 계산 오버헤드가 발생합니다. 이러한 한계를 해결하기 위해 우리는 대부분의 프레임에 대해 고비용의 전체 이미지 인코딩 없이도 비디오 중복성과 희소성을 기본적으로 인코딩하는 비디오 코덱 기본 요소(구체적으로 모션 벡터와 잔차)를 활용하는 방법을 제안합니다. 이를 위해 우리는 경량 트랜스포머 기반 인코더를 도입하여 코덱 기본 요소를 집계하고, 엔드투엔드 미세 조정期間 수렴을 가속화하는 사전 훈련 전략을 통해 해당 표현을 이미지 인코더 임베딩과 정렬합니다. 우리의 접근 방식은 표준 VideoLM 대비 첫 토큰 출력 시간을 최대 86%까지 단축하고 토큰 사용량을 최대 93%까지 절감합니다. 또한 키프레임 및 코덱 기본 요소 밀도를 조절함으로써 일반 질의응답, 시간적 추론, 장편 비디오 이해, 공간적 장면 이해 등 14가지 다양한 비디오 이해 벤치마크에서 성능을 유지하거나 향상시킬 수 있었습니다.
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.