EarlyTom: Vroege Tokencompressie Voltooit Snel Videobegrip

Samenvatting

Video-grote-taalmodellen (Video-LLM's) hebben sterke capaciteiten aangetoond in videobegripstaken. Hun praktische inzet wordt echter nog belemmerd door de inefficiëntie die ontstaat bij het verwerken van enorme hoeveelheden visuele tokens. Hoewel recente benaderingen extreem lage tokenretentieratio's bereiken met behoud van een nauwkeurigheid vergelijkbaar met volledige-token-baselines, voeren de meeste hiervan compressie alleen in de late fase van het prefilling uit, waardoor de efficiëntie van de visie-encoder niet wordt geoptimaliseerd. In dit artikel tonen we eerst aan dat visiecodering een groot deel van de tijd-tot-eerste-token (TTFT) voor zijn rekening neemt. Daarom blijft er nog aanzienlijke ruimte voor verkenning als we compressie niet pas na de visie-encoder uitvoeren, maar al binnen de encoder. Op basis van dit inzicht stellen we EarlyTom voor, een training-vrij tokencompressieraamwerk dat vroege compressie van visuele tokens binnen de visie-encoder uitvoert, wat een aanzienlijk betere TTFT-reductie en hogere doorvoer mogelijk maakt. Daarnaast introduceren we een ontkoppelde ruimtelijke tokenselectiestrategie die de algehele compressie-effectiviteit verbetert. EarlyTom vermindert de TTFT met maximaal 2,65x en de FLOP's met maximaal 61% op een enkele NVIDIA A100 GPU voor het LLaVA-OneVision-7B-model, met behoud van een nauwkeurigheid vergelijkbaar met de volledige-token-baseline. Deze verbeteringen verhogen aanzienlijk de bruikbaarheid van het inzetten van Video-LLM's in realistische productiescenario's.

English

Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.