Kleine Vision-Taalmodellen zijn Slimme Compressors voor Langdurige Videobegrip
Small Vision-Language Models are Smart Compressors for Long Video Understanding
April 9, 2026
Auteurs: Junjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu
cs.AI
Samenvatting
Het aanpassen van multimodale grote taalmodellen (MLLM's) voor video's van urenlang wordt beperkt door contextlimieten. Dichte visuele stromen verzadigen de tokenbudgetten en verergeren het 'lost-in-the-middle'-fenomeen. Bestaande heuristieken, zoals sparse sampling of uniform pooling, offeren blindelings nauwkeurigheid op door beslissende momenten te verwijderen en bandbreedte te verspillen aan irrelevante achtergronden. Wij stellen Tempo voor, een efficiënt query-aware raamwerk dat lange video's comprimeert voor downstream begrip. Tempo benut een Small Vision-Language Model (SVLM) als een lokale temporele compressor, waarbij tokenreductie wordt gegoten als een vroeg cross-modale distillatieproces om compacte, intentie-uitgelijnde representaties te genereren in een enkele voorwaartse pass. Om strikte budgetten af te dwingen zonder causaliteit te breken, introduceren we Adaptive Token Allocation (ATA). Door gebruik te maken van de zero-shot relevantieprior en semantische front-loading van de SVLM, fungeert ATA als een trainingsvrije O(1) dynamische router. Het wijst dichte bandbreedte toe aan query-kritieke segmenten terwijl redundanties worden gecomprimeerd tot minimale temporele ankers om het globale verhaal te behouden. Uitgebreide experimenten tonen aan dat onze 6B-architectuur state-of-the-art prestaties bereikt met agressieve dynamische compressie (0,5-16 tokens/frame). Op de extreem lange LVBench (4101s) scoort Tempo 52,3 onder een strikt 8K visueel budget, beter dan GPT-4o en Gemini 1.5 Pro. Schalen naar 2048 frames bereikt 53,7. Cruciaal is dat Tempo video's van urenlang substantieel onder theoretische limieten comprimeert, wat bewijst dat echt langdurig videobegrip steunt op intentie-gedreven efficiëntie in plaats van op hebberig opgevulde contextvensters.
English
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.