ChatPaper.aiChatPaper

Pequenos Modelos de Visão e Linguagem são Compressores Inteligentes para Compreensão de Vídeos Longos

Small Vision-Language Models are Smart Compressors for Long Video Understanding

April 9, 2026
Autores: Junjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu
cs.AI

Resumo

A adaptação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para vídeos de longa duração é limitada pelas restrições de contexto. Fluxos visuais densos saturam o orçamento de tokens e exacerbam o fenômeno "lost-in-the-middle" (perdido-no-meio). Heurísticas existentes, como amostragem esparsa ou *pooling* uniforme, sacrificam cegamente a fidelidade ao descartar momentos decisivos e desperdiçar largura de banda em planos de fundo irrelevantes. Propomos o Tempo, uma estrutura eficiente e consciente da consulta que comprime vídeos longos para compreensão subsequente. O Tempo aproveita um Pequeno Modelo de Linguagem Visual (SVLM) como um compressor temporal local, transformando a redução de tokens num processo inicial de destilação multimodal para gerar representações compactas e alinhadas com a intenção numa única passagem direta. Para impor orçamentos rigorosos sem quebrar a causalidade, introduzimos a Alocação Adaptativa de Tokens (ATA). Explorando o *prior* de relevância *zero-shot* e a carga antecipada semântica do SVLM, a ATA atua como um roteador dinâmico O(1) sem necessidade de treino. Ela aloca largura de banda densa a segmentos críticos para a consulta, enquanto comprime redundâncias em âncoras temporais mínimas para manter a narrativa global. Experimentos extensivos mostram que nossa arquitetura de 6B atinge desempenho de última geração com compressão dinâmica agressiva (0.5-16 tokens/frame). No LVBench de extrema duração (4101s), o Tempo obtém 52.3 sob um rigoroso orçamento visual de 8K, superando o GPT-4o e o Gemini 1.5 Pro. Escalar para 2048 *frames* atinge 53.7. Crucialmente, o Tempo comprime vídeos de longa duração substancialmente abaixo dos limites teóricos, provando que a verdadeira compreensão de vídeos de formato longo depende de eficiência orientada pela intenção, e não de janelas de contexto greedily preenchidas.
English
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.
PDF152April 13, 2026