LiteFrame: Effiziente Vision-Encoder ermöglichen Frame-Skalierung in Video-LLMs

Zusammenfassung

Die grundlegende Herausforderung bei der Skalierung von Video Large Language Models (Video-LLMs) auf lange Videosequenzen liegt in der Bewältigung der Explosion der visuellen Token-Kontextlänge. Bisherige Strategien konzentrieren sich überwiegend auf eine "nachträgliche" Token-Reduktion – die Reduzierung visueller Token nach der Merkmalsextraktion, um den Rechenaufwand des LLM zu verringern. Obwohl diese Methoden die Anzahl der visuellen Token effektiv reduzieren, beobachten wir, dass sich der primäre Engpass in der Latenz dann vom LLM auf die aufwändige Einzelbildverarbeitung des visuellen Encoders verlagert. Um dieses Problem zu lösen, führen wir LiteFrame ein, ein leistungsstarkes und zugleich äußerst effizientes Video-Encoder-Backbone für Video-LLMs. Für das Training von LiteFrame schlagen wir Compressed Token Distillation (CTD) vor, ein neuartiges Trainingsframework, das einem kompakten Studenten-Video-Encoder beibringt, direkt informationsdichte, räumlich-zeitlich komprimierte Repräsentationen vorherzusagen, die von einem großen Lehrer-Visionsmodell erzeugt werden – und so redundante Berechnungen effektiv umgeht. In Kombination mit einer weiteren Language Model Adaptation (LMA) führt dieser Ansatz zu einer neuen Pareto-Grenze zwischen Latenz und Genauigkeit: Im Vergleich zu InternVL3-8B ermöglicht LiteFrame eine Reduzierung der Ende-zu-Ende-Latenz um 35% bei gleichzeitiger Verarbeitung der 8-fachen Anzahl an Einzelbildern und verbessert die durchschnittliche Video-Verständnisgenauigkeit über mehrere Benchmarks hinweg. Unsere Ergebnisse zeigen einen neuen vielversprechenden Weg auf, um unter festen Rechenbudgets ein längeres Video-Verständnis zu erschließen.

English

The fundamental challenge in scaling Video Large Language Models (Video LLMs) to long-form video lies in managing the explosion of visual-token context length. Existing strategies predominantly focus on "post-hoc" token reduction -- reducing visual tokens after feature extraction to alleviate the LLM's computational overhead. While these methods effectively reduce the number of visual tokens, we observe that the primary latency bottleneck then shifts from the LLM to the expensive per-frame processing of the vision encoder. To address this, we introduce LiteFrame, a strong, yet highly efficient video encoder backbone for Video LLMs. To train LiteFrame, we propose Compressed Token Distillation (CTD), a novel training framework that teaches a compact student vision encoder to directly predict information-dense, spatio-temporally compressed representations produced by a large teacher vision model, effectively bypassing redundant computation. When coupled with further Language Model Adaptation (LMA), this approach results in a new latency-accuracy Pareto frontier -- compared with InternVL3-8B, LiteFrame provides a 35% reduction in end-to-end latency while processing 8times more frames and improves average video understanding accuracy across multiple benchmarks. Our results demonstrate a new potential path to unlocking longer-form video understanding under fixed compute budgets.