ChatPaper.aiChatPaper

CoPE-VideoLM: 効率的なビデオ言語モデルのためのコーデック基本要素

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

February 13, 2026
著者: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI

要旨

ビデオ言語モデル(VideoLM)は、AIシステムにビデオの時間的ダイナミクスを理解する能力を与える。最大コンテキスト長の制約に適合するため、現在の手法はキーフレームサンプリングを使用しているが、時間的なカバレッジが疎であるため、マクロレベルのイベントとミクロレベルの詳細の両方を見落とす可能性がある。さらに、各フレームの完全な画像とそのトークンを処理することは、大幅な計算オーバーヘッドを招く。これらの制限に対処するため、我々はビデオコーデックの基本要素(具体的には動きベクトルと残差情報)を活用することを提案する。これらは本来、ほとんどのフレームで高価な完全画像エンコーディングを必要とせずに、ビデオの冗長性と疎性を符号化するものである。この目的のために、我々は軽量なTransformerベースのエンコーダを導入し、コーデック基本要素を集約し、その表現を画像エンコーダの埋め込みと整合させるための事前学習戦略を通じて、エンドツーエンドのファインチューニング時の収束を加速する。我々の手法は、標準的なVideoLMと比較して、最初のトークンまでの時間を最大86%、トークン使用量を最大93%削減する。さらに、キーフレームとコーデック基本要素の密度を変化させることで、一般的な質問応答、時間的推論、長尺理解、空間的シーン理解にわたる14の多様なビデオ理解ベンチマークにおいて、性能を維持または向上させることに成功している。
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.
PDF232February 17, 2026