ChatPaper.aiChatPaper

CoPE-VideoLM: Кодековые примитивы для эффективных языковых моделей видео

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

February 13, 2026
Авторы: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu
cs.AI

Аннотация

Видеоязыковые модели (VideoLMs) позволяют системам ИИ анализировать временную динамику в видео. Чтобы соответствовать ограничению на максимальный размер контекстного окна, современные методы используют выборку ключевых кадров, что может приводить к потере как макроуровневых событий, так и микроуровневых деталей из-за разреженного временного охвата. Кроме того, обработка полных изображений и их токенов для каждого кадра связана со значительными вычислительными затратами. Для преодоления этих ограничений мы предлагаем использовать примитивы видеокодека (а именно векторы движения и остатки), которые изначально кодируют избыточность и разреженность видео без необходимости дорогостоящего кодирования полных изображений для большинства кадров. С этой целью мы представляем легковесные трансформерные энкодеры, которые агрегируют примитивы кодека и выравнивают их представления с эмбеддингами энкодера изображений с помощью стратегии предварительного обучения, ускоряющей сходимость при сквозной тонкой настройке. Наш подход сокращает время до первого токена до 86% и использование токенов до 93% по сравнению со стандартными VideoLMs. Более того, варьируя плотность ключевых кадров и примитивов кодека, мы смогли сохранить или превзойти производительность на 14 разнообразных бенчмарках для понимания видео, охватывающих общие вопросы-ответы, временные рассуждения, анализ длинных последовательностей и пространственное понимание сцен.
English
Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.
PDF232February 17, 2026