Los Pequeños Modelos de Visión y Lenguaje son Compresores Inteligentes para la Comprensión de Videos Largos

Resumen

La adaptación de Modelos de Lenguaje Grandes Multimodales (MLLMs) a videos de larga duración se ve limitada por las restricciones de contexto. Los flujos visuales densos saturan los presupuestos de tokens y exacerban el fenómeno de "perdido-en-el-medio". Las heurísticas existentes, como el muestreo disperso o la agrupación uniforme, sacrifican la fidelidad a ciegas al descartar momentos decisivos y desperdiciar ancho de banda en fondos irrelevantes. Proponemos Tempo, un marco eficiente consciente de la consulta que comprime videos largos para su comprensión posterior. Tempo aprovecha un Modelo Pequeño de Visión y Lenguaje (SVLM) como compresor temporal local, planteando la reducción de tokens como un proceso temprano de destilación multimodal para generar representaciones compactas y alineadas con la intención en una única pasada hacia adelante. Para imponer presupuestos estrictos sin romper la causalidad, introducimos la Asignación Adaptativa de Tokens (ATA). Aprovechando el conocimiento previo de relevancia *zero-shot* del SVLM y la carga frontal semántica, ATA actúa como un enrutador dinámico O(1) sin necesidad de entrenamiento. Asigna ancho de banda denso a segmentos críticos para la consulta, mientras comprime las redundancias en anclajes temporales mínimos para mantener la narrativa global. Experimentos exhaustivos muestran que nuestra arquitectura de 6B logra un rendimiento de vanguardia con una compresión dinámica agresiva (0.5-16 tokens/fotograma). En el benchmark de videos extremadamente largos LVBench (4101s), Tempo obtiene una puntuación de 52.3 bajo un estricto presupuesto visual de 8K, superando a GPT-4o y Gemini 1.5 Pro. Al escalar a 2048 fotogramas, alcanza 53.7. Crucialmente, Tempo comprime videos de una hora sustancialmente por debajo de los límites teóricos, demostrando que la verdadera comprensión de videos de larga duración se basa en la eficiencia impulsada por la intención, y no en ventanas de contexto rellenadas de forma codiciosa.

English

Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.

Los Pequeños Modelos de Visión y Lenguaje son Compresores Inteligentes para la Comprensión de Videos Largos

Small Vision-Language Models are Smart Compressors for Long Video Understanding

Resumen

Support