I piccoli modelli visione-linguaggio sono compressori intelligenti per la comprensione di video lunghi
Small Vision-Language Models are Smart Compressors for Long Video Understanding
April 9, 2026
Autori: Junjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu
cs.AI
Abstract
L'adattamento dei Modelli Linguistici Multimodali (MLLM) per video della durata di ore è limitato dalla lunghezza del contesto. I flussi visivi densi saturano il budget dei token e aggravano il fenomeno del "lost-in-the-middle". Le euristiche esistenti, come il campionamento sparso o il pooling uniforme, sacrificano ciecamente la fedeltà scartando momenti decisivi e sprecando banda su sfondi irrilevanti. Proponiamo Tempo, un framework efficiente e query-aware che comprime video lunghi per la comprensione a valle. Tempo utilizza un Small Vision-Language Model (SVLM) come compressore temporale locale, trasformando la riduzione dei token in un processo di distillazione cross-modale precoce per generare rappresentazioni compatte e allineate all'intento in un singolo passaggio in avanti. Per imporre budget rigorosi senza violare la causalità, introduciamo l'Adaptive Token Allocation (ATA). Sfruttando la priorità di rilevanza zero-shot e il semantic front-loading dell'SVLM, l'ATA funge da router dinamico O(1) senza necessità di training. Alloca una banda densa ai segmenti critici per la query mentre comprime le ridondanze in ancoraggi temporali minimi per mantenere la narrazione globale. Esperimenti estensivi mostrano che la nostra architettura da 6B raggiunge prestazioni state-of-the-art con una compressione dinamica aggressiva (0.5-16 token/fotogramma). Sul LVBench estremamente lungo (4101s), Tempo ottiene un punteggio di 52.3 con un rigoroso budget visivo di 8K, superando GPT-4o e Gemini 1.5 Pro. Il ridimensionamento a 2048 fotogrammi raggiunge 53.7. Fondamentalmente, Tempo comprime video della durata di ore ben al di sotto dei limiti teorici, dimostrando che la vera comprensione di video di lunga durata si basa su un'efficienza guidata dall'intento piuttosto che su finestre di contesto gonfiate in modo avido.
English
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.