Pequenos Modelos de Visão e Linguagem são Compressores Inteligentes para Compreensão de Vídeos Longos

Resumo

A adaptação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para vídeos de longa duração é limitada pelas restrições de contexto. Fluxos visuais densos saturam o orçamento de tokens e exacerbam o fenômeno "lost-in-the-middle" (perdido-no-meio). Heurísticas existentes, como amostragem esparsa ou *pooling* uniforme, sacrificam cegamente a fidelidade ao descartar momentos decisivos e desperdiçar largura de banda em planos de fundo irrelevantes. Propomos o Tempo, uma estrutura eficiente e consciente da consulta que comprime vídeos longos para compreensão subsequente. O Tempo aproveita um Pequeno Modelo de Linguagem Visual (SVLM) como um compressor temporal local, transformando a redução de tokens num processo inicial de destilação multimodal para gerar representações compactas e alinhadas com a intenção numa única passagem direta. Para impor orçamentos rigorosos sem quebrar a causalidade, introduzimos a Alocação Adaptativa de Tokens (ATA). Explorando o *prior* de relevância *zero-shot* e a carga antecipada semântica do SVLM, a ATA atua como um roteador dinâmico O(1) sem necessidade de treino. Ela aloca largura de banda densa a segmentos críticos para a consulta, enquanto comprime redundâncias em âncoras temporais mínimas para manter a narrativa global. Experimentos extensivos mostram que nossa arquitetura de 6B atinge desempenho de última geração com compressão dinâmica agressiva (0.5-16 tokens/frame). No LVBench de extrema duração (4101s), o Tempo obtém 52.3 sob um rigoroso orçamento visual de 8K, superando o GPT-4o e o Gemini 1.5 Pro. Escalar para 2048 *frames* atinge 53.7. Crucialmente, o Tempo comprime vídeos de longa duração substancialmente abaixo dos limites teóricos, provando que a verdadeira compreensão de vídeos de formato longo depende de eficiência orientada pela intenção, e não de janelas de contexto greedily preenchidas.

English

Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.

Pequenos Modelos de Visão e Linguagem são Compressores Inteligentes para Compreensão de Vídeos Longos

Small Vision-Language Models are Smart Compressors for Long Video Understanding

Resumo

Support