Kleine visuell-sprachliche Modelle sind effiziente Kompressoren für das Verständnis langer Videos.

Zusammenfassung

Die Anpassung multimodaler großer Sprachmodelle (MLLMs) für stundenlange Videos wird durch Kontextlimits eingeschränkt. Dichte visuelle Datenströme überschreiten Token-Budgets und verstärken den "Lost-in-the-Middle"-Effekt. Bestehende Heuristiken wie sparse Abtastung oder uniformes Pooling opfern blind die Genauigkeit, indem sie entscheidende Momente verwerfen und Bandbreite für irrelevante Hintergründe verschwenden. Wir stellen Tempo vor, ein effizientes, abfragebewusstes Framework zur Komprimierung langer Videos für das nachgelagerte Verständnis. Tempo nutzt ein kleines Vision-Language-Model (SVLM) als lokalen temporalen Kompressor, das Token-Reduktion als frühen cross-modalen Distillationsprozess behandelt, um kompakte, intentionsausgerichtete Repräsentationen in einem einzigen Vorwärtsdurchlauf zu erzeugen. Um strikte Budgets ohne Kausalitätsbruch durchzusetzen, führen wir Adaptive Token Allocation (ATA) ein. ATA nutzt die Zero-Shot-Relevanz-Priorität und semantische Vorladung des SVLM als trainierungsfreier O(1)-Router. Es weist dichte Bandbreite abfragekritischen Segmenten zu, während Redundanzen zu minimalen temporalen Ankern komprimiert werden, um die globale Handlung zu erhalten. Umfangreiche Experimente zeigen, dass unsere 6B-Architektur State-of-the-Art-Leistung mit aggressiver dynamischer Kompression (0,5-16 Token/Frame) erreicht. Auf dem extrem langen LVBench (4101s) erzielt Tempo 52,3 Punkte unter striktem 8K-Visual-Budget und übertrifft GPT-4o und Gemini 1.5 Pro. Bei Skalierung auf 2048 Frames werden 53,7 erreicht. Entscheidend ist, dass Tempo stundenlange Videos deutlich unter theoretischen Limits komprimiert, was beweist, dass echtes Langvideo-Verständnis auf intentionsgesteuerter Effizienz beruht – nicht auf gierig aufgeblähten Kontextfenstern.

English

Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.

Kleine visuell-sprachliche Modelle sind effiziente Kompressoren für das Verständnis langer Videos.

Small Vision-Language Models are Smart Compressors for Long Video Understanding

Zusammenfassung

Support