Маленькие визуально-языковые модели — это умные компрессоры для понимания длинных видео
Small Vision-Language Models are Smart Compressors for Long Video Understanding
April 9, 2026
Авторы: Junjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu
cs.AI
Аннотация
Адаптация мультимодальных больших языковых моделей (MLLM) для работы с часовыми видео упирается в ограничения контекста. Плотные визуальные потоки переполняют бюджет токенов и усугубляют феномен «потери в середине». Существующие эвристики, такие как разреженная выборка или равномерное пулинг, слепо жертвуют точностью, отбрасывая ключевые моменты и тратя ресурсы на нерелевантный фон. Мы предлагаем Tempo — эффективный запросо-ориентированный фреймворк для сжатия длинных видео с целью их последующего анализа. Tempo использует малую визуально-языковую модель (SVLM) в качестве локального темпорального компрессора, преобразуя сокращение токенов в процесс раннего кросс-модального дистилляции для генерации компактных, согласованных с целью представлений за один прямой проход. Для соблюдения строгого бюджета без нарушения причинности мы вводим адаптивное распределение токенов (ATA). Используя априорную нулевой сэмплинг релевантности SVLM и семантическое упреждающее кодирование, ATA действует как не требующий обучения O(1) динамический маршрутизатор. Он выделяет плотную полосу пропускания для сегментов, критически важных для запроса, одновременно сжимая избыточность до минимальных временных якорей для сохранения глобальной сюжетной линии. Масштабные эксперименты показывают, что наша 6B архитектура достигает state-of-the-art результатов при агрессивном динамическом сжатии (0.5–16 токенов/кадр). На предельно длинном LVBench (4101 с) Tempo набирает 52.3 балла при строгом бюджете в 8K визуальных токенов, превосходя GPT-4o и Gemini 1.5 Pro. Масштабирование до 2048 кадров дает результат 53.7. Ключевой вывод: Tempo сжимает часовые видео существенно ниже теоретических пределов, доказывая, что подлинное понимание длинных видео relies на эффективность, управляемую целью, а не на жадное заполнение контекстных окон.
English
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.