VideoAtlas: Navigation in Langvideos mit logarithmischem Rechenaufwand

Zusammenfassung

Die Erweiterung von Sprachmodellen auf Videos stellt zwei Herausforderungen dar: Repräsentation, bei der bestehende Methoden auf verlustbehaftete Approximationen zurückgreifen, und Langzeitkontext, bei dem caption- oder agentenbasierte Pipelines Videos in Text komprimieren und dabei die visuelle Detailtreue verlieren. Um dies zu überwinden, führen wir VideoAtlas ein, eine aufgabenagnostische Umgebung, die Videos als hierarchisches Raster darstellt, das gleichzeitig verlustfrei, navigierbar, skalierbar sowie frei von Beschriftungen und Vorverarbeitung ist. Eine Übersicht über das Video ist auf einen Blick verfügbar, und jede Region kann rekursiv herangezoomt werden, wobei dieselbe visuelle Repräsentation einheitlich für das Video, Zwischenuntersuchungen und das Gedächtnis des Agenten verwendet wird, was verlustbehaftete Textkonvertierung end-to-end eliminiert. Diese hierarchische Struktur gewährleistet, dass die Zugriffstiefe nur logarithmisch mit der Videolänge wächst. Für Langzeitkontext boten Rekursive Sprachmodelle (RLMs) kürzlich eine leistungsstarke Lösung für lange Texte, doch ihre Erweiterung auf den visuellen Bereich erfordert eine strukturierte Umgebung, in die rekursiv eingetaucht werden kann – was VideoAtlas bereitstellt. VideoAtlas als Markov-Entscheidungsprozess ermöglicht Video-RLM: eine parallele Master-Worker-Architektur, bei der ein Master die globale Exploration koordiniert, während Worker gleichzeitig in zugewiesene Regionen eindringen, um verlustfreie visuelle Evidenz zu sammeln. Wir demonstrieren drei zentrale Erkenntnisse: (1)~logarithmisches Rechenwachstum mit der Videodauer, verstärkt durch eine multimodale Cache-Trefferrate von 30–60 %, die aus der Wiederverwendung der Rasterstruktur resultiert. (2)~Umgebungsbudgetierung, bei der die Begrenzung der maximalen Explorationstiefe einen prinzipienbasierten Hyperparameter für Rechenaufwand und Genauigkeit bietet. (3)~Emergente adaptive Rechenzuweisung, die mit der Granularität der Frage skaliert. Beim Skalieren von 1-Stunden- auf 10-Stunden-Benchmarks bleibt Video-RLM die robusteste Methode in Bezug auf die Dauer mit minimalem Genauigkeitsverlust, was zeigt, dass die Navigation in strukturierten Umgebungen ein praktikables und skalierbares Paradigma für das Videoverständnis ist.

English

Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.

VideoAtlas: Navigation in Langvideos mit logarithmischem Rechenaufwand

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Zusammenfassung

Support