LiteFrame: Efficiënte visie-encoders ontgrendelen frameschaling in video-LLM's

Samenvatting

De fundamentele uitdaging bij het opschalen van Video Large Language Modellen (Video-LLMs) naar lange video's ligt in het beheersen van de explosie van de contextlengte van visuele tokens. Bestaande strategieën richten zich voornamelijk op 'post-hoc' tokenreductie: het verminderen van visuele tokens na feature-extractie om de rekenkundige overhead van het LLM te verlichten. Hoewel deze methoden effectief het aantal visuele tokens verminderen, constateren wij dat de primaire latentieknelpunt vervolgens verschuift van het LLM naar de kostbare verwerking per frame door de visie-encoder. Om dit aan te pakken introduceren wij LiteFrame, een krachtige maar zeer efficiënte video-encoder backbone voor Video-LLMs. Voor het trainen van LiteFrame stellen wij Compressed Token Distillation (CTD) voor, een nieuw trainingsraamwerk dat een compacte student-visie-encoder leert om rechtstreeks informatie-dichte, ruimtelijk-temporeel gecomprimeerde representaties te voorspellen die door een groot docent-visiemodel worden geproduceerd, waardoor overbodige berekeningen effectief worden omzeild. In combinatie met verdere Taalmodeladaptatie (LMA) resulteert deze aanpak in een nieuwe latentie-nauwkeurigheid Pareto-grens – vergeleken met InternVL3-8B biedt LiteFrame een reductie van 35% in end-to-end latentie terwijl het 8 keer zoveel frames verwerkt en de gemiddelde video-begripnauwkeurigheid over meerdere benchmarks verbetert. Onze resultaten tonen een nieuw potentieel pad aan om langer durend videobegrip te ontgrendelen onder een vast rekenbudget.

English

The fundamental challenge in scaling Video Large Language Models (Video LLMs) to long-form video lies in managing the explosion of visual-token context length. Existing strategies predominantly focus on "post-hoc" token reduction -- reducing visual tokens after feature extraction to alleviate the LLM's computational overhead. While these methods effectively reduce the number of visual tokens, we observe that the primary latency bottleneck then shifts from the LLM to the expensive per-frame processing of the vision encoder. To address this, we introduce LiteFrame, a strong, yet highly efficient video encoder backbone for Video LLMs. To train LiteFrame, we propose Compressed Token Distillation (CTD), a novel training framework that teaches a compact student vision encoder to directly predict information-dense, spatio-temporally compressed representations produced by a large teacher vision model, effectively bypassing redundant computation. When coupled with further Language Model Adaptation (LMA), this approach results in a new latency-accuracy Pareto frontier -- compared with InternVL3-8B, LiteFrame provides a 35% reduction in end-to-end latency while processing 8times more frames and improves average video understanding accuracy across multiple benchmarks. Our results demonstrate a new potential path to unlocking longer-form video understanding under fixed compute budgets.