Les petits modèles vision-langage sont des compresseurs intelligents pour la compréhension de vidéos longues

Résumé

L'adaptation des grands modèles de langage multimodaux (MLLM) aux vidéos de longue durée (plusieurs heures) se heurte à la limite du contexte. Les flux visuels denses saturent le budget de tokens et exacerbent le phénomène de « perte au milieu ». Les heuristiques existantes, comme l'échantillonnage clairsemé ou le pooling uniforme, sacrifient aveuglément la fidélité en éliminant les moments décisifs et en gaspillant de la bande passante sur des arrière-plans non pertinents. Nous proposons Tempo, un cadre efficace et conscient de la requête, qui compresse les vidéos longues pour une compréhension en aval. Tempo utilise un petit modèle vision-langage (SVLM) comme compresseur temporel local, transformant la réduction de tokens en un processus de distillation multimodale précoce pour générer en une seule passe avant des représentations compactes et alignées sur l'intention. Pour respecter des budgets stricts sans briser la causalité, nous introduisons l'Allocation Adaptative de Tokens (ATA). En exploitant l'a priori de pertinence en zero-shot du SVLM et son chargement sémantique anticipé, l'ATA agit comme un routeur dynamique O(1) sans apprentissage. Il alloue une bande passante dense aux segments critiques pour la requête tout en compressant les redondances en de minimales ancres temporelles pour préserver la structure narrative globale. Des expériences approfondies montrent que notre architecture de 6B atteint des performances de pointe avec une compression dynamique agressive (0,5-16 tokens/image). Sur le benchmark extrêmement long LVBench (4101s), Tempo obtient un score de 52,3 avec un budget visuel strict de 8K, surpassant GPT-4o et Gemini 1.5 Pro. Le passage à l'échelle de 2048 images atteint 53,7. Surtout, Tempo compresse les vidéos de longue durée bien en deçà des limites théoriques, prouvant que la compréhension véritable des vidéos longues repose sur une efficacité pilotée par l'intention plutôt que sur des fenêtres de contexte simplement remplies de manière gourmande.

English

Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.

Les petits modèles vision-langage sont des compresseurs intelligents pour la compréhension de vidéos longues

Small Vision-Language Models are Smart Compressors for Long Video Understanding

Résumé

Support