CoPE-VideoLM: Codec-primitieven voor efficiënte videotaalmodellen

Samenvatting

Video Language Models (VideoLMs) stellen AI-systemen in staat om temporele dynamiek in video's te begrijpen. Om aan de maximale contextvensterbeperking te voldoen, gebruiken huidige methoden keyframe-sampling, wat zowel macro-niveau gebeurtenissen als micro-niveau details kan missen vanwege de beperkte temporele dekking. Bovendien brengt de verwerking van volledige afbeeldingen en hun tokens voor elk frame aanzienlijke rekenkosten met zich mee. Om deze beperkingen aan te pakken, stellen we voor om video-codec-primitieven (specifiek motion vectors en residuals) te benutten, die van nature videoredundantie en -sparsiteit coderen zonder dure volledige afbeeldingcodering voor de meeste frames vereist. Hiertoe introduceren we lichtgewicht op transformers gebaseerde encoders die codec-primitieven aggregeren en hun representaties afstemmen op image encoder-embeddings via een pre-trainingstrategie die de convergentie tijdens end-to-end fine-tuning versnelt. Onze aanpak vermindert de time-to-first-token met tot 86% en het tokenverbruik met tot 93% in vergelijking met standaard VideoLMs. Bovendien kunnen we, door de keyframe- en codec-primitiefdichtheden te variëren, de prestaties handhaven of verbeteren op 14 diverse video-begriptaken, variërend van algemene vraag-antwoordtaken, temporeel redeneren, langdurig begrip en ruimtelijk scenebegrip.

English

Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.

CoPE-VideoLM: Codec-primitieven voor efficiënte videotaalmodellen

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Samenvatting

Support