CoPE-VideoLM: Primitivi Codec per Modelli Linguistici Video Efficienti

Abstract

I modelli linguistici video (VideoLMs) consentono ai sistemi di intelligenza artificiale di comprendere le dinamiche temporali nei video. Per adattarsi al vincolo della dimensione massima del contesto, i metodi attuali utilizzano il campionamento dei fotogrammi chiave, che può tralasciare sia eventi a livello macro che dettagli a livello micro a causa della copertura temporale sparsa. Inoltre, l'elaborazione delle immagini complete e dei relativi token per ogni fotogramma comporta un sovraccarico computazionale sostanziale. Per affrontare queste limitazioni, proponiamo di sfruttare le primitive dei codec video (nello specifico i vettori di movimento e i residui), che codificano nativamente la ridondanza e la sparsità video senza richiedere una costosa codifica dell'immagine completa per la maggior parte dei fotogrammi. A tal fine, introduciamo encoder basati su transformer leggeri che aggregano le primitive del codec e allineano le loro rappresentazioni con gli embedding degli encoder di immagini attraverso una strategia di pre-addestramento che accelera la convergenza durante la messa a punto end-to-end. Il nostro approccio riduce il tempo per il primo token fino all'86% e l'utilizzo dei token fino al 93% rispetto ai VideoLM standard. Inoltre, variando le densità dei fotogrammi chiave e delle primitive del codec, siamo in grado di mantenere o superare le prestazioni su 14 benchmark diversificati per la comprensione video, che spaziano dal question answering generale, al ragionamento temporale, alla comprensione di contenuti lunghi e alla comprensione spaziale della scena.

English

Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to 86% and token usage by up to 93% compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on 14 diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.

CoPE-VideoLM: Primitivi Codec per Modelli Linguistici Video Efficienti

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Abstract

Support