EarlyTom: Frühe Token-Kompression ermöglicht schnelles Video-Verstehen

Zusammenfassung

Große Videosprachmodelle (Video-LLMs) haben starke Fähigkeiten bei Video-Verständnisaufgaben gezeigt. Ihr praktischer Einsatz wird jedoch weiterhin durch die Ineffizienz behindert, die durch die Verarbeitung einer großen Anzahl visueller Tokens entsteht. Obwohl neuere Ansätze extrem niedrige Tokenbeibehaltungsraten bei gleichbleibender Genauigkeit im Vergleich zu Volltoken-Baselines erreichen, führen die meisten von ihnen die Komprimierung erst in der späten Phase der Vorausfüllung durch, sodass die Effizienz des visuellen Encoders nicht optimiert wird. In diesem Artikel zeigen wir zunächst, dass die visuelle Codierung einen großen Teil der Zeit bis zum ersten Token (TTFT) ausmacht. Daher bleibt, anstatt visuelle Tokens erst nach dem visuellen Encoder zu komprimieren, die Durchführung der Komprimierung innerhalb des Encoders ein Bereich, der noch erhebliches Potenzial für Untersuchungen bietet. Ausgehend von dieser Erkenntnis schlagen wir EarlyTom vor, ein trainingsfreies Token-Komprimierungsframework, das eine frühzeitige visuelle Token-Komprimierung innerhalb des visuellen Encoders durchführt und so eine deutlich bessere TTFT-Reduktion und einen höheren Durchsatz ermöglicht. Darüber hinaus führen wir eine entkoppelte räumliche Tokenauswahlstrategie ein, die die Gesamteffektivität der Komprimierung verbessert. EarlyTom reduziert die TTFT um bis zu 2,65× und die FLOPs um bis zu 61% auf einer einzelnen NVIDIA A100 GPU für das LLaVA-OneVision-7B-Modell, während die Genauigkeit im Vergleich zur Volltoken-Baseline erhalten bleibt. Diese Verbesserungen erhöhen die Praktikabilität des Einsatzes von Video-LLMs in realen Produktionsszenarien erheblich.

English

Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.