VideoAtlas: Navegación en Vídeos de Larga Duración con Cómputo Logarítmico

Resumen

Extender los modelos de lenguaje al video introduce dos desafíos: la representación, donde los métodos existentes dependen de aproximaciones con pérdidas, y el contexto largo, donde los flujos basados en descripciones o agentes comprimen el video en texto y pierden fidelidad visual. Para superar esto, presentamos VideoAtlas, un entorno independiente de la tarea para representar video como una cuadrícula jerárquica que es simultáneamente sin pérdidas, navegable, escalable, y libre de descripciones y preprocesamiento. Una visión general del video está disponible de un vistazo, y cualquier región puede ampliarse recursivamente, utilizando la misma representación visual de manera uniforme para el video, las investigaciones intermedias y la memoria del agente, eliminando la conversión a texto con pérdidas de extremo a extremo. Esta estructura jerárquica garantiza que la profundidad de acceso crezca solo logarítmicamente con la duración del video. Para el contexto largo, los Modelos de Lenguaje Recursivos (RLM) ofrecieron recientemente una solución poderosa para texto largo, pero extenderlos al dominio visual requiere un entorno estructurado en el que recursar, el cual proporciona VideoAtlas. VideoAtlas como un Proceso de Decisión de Markov desbloquea Video-RLM: una arquitectura paralela Maestro-Trabajador donde un Maestro coordina la exploración global mientras los Trabajadores perforan concurrentemente en regiones asignadas para acumular evidencia visual sin pérdidas. Demostramos tres hallazgos clave: (1)~crecimiento computacional logarítmico con la duración del video, amplificado aún más por una tasa de aciertos de caché multimodal del 30-60% que surge de la reutilización estructural de la cuadrícula. (2)~presupuestación del entorno, donde acotar la profundidad máxima de exploración proporciona un hiperparámetro de precisión-computación fundamentado. (3)~asignación computacional adaptativa emergente que escala con la granularidad de la pregunta. Al escalar desde puntos de referencia de 1 hora a 10 horas, Video-RLM sigue siendo el método más robusto frente a la duración, con una degradación mínima de la precisión, demostrando que la navegación en entornos estructurados es un paradigma viable y escalable para la comprensión de video.

English

Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.

VideoAtlas: Navegación en Vídeos de Larga Duración con Cómputo Logarítmico

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Resumen

Support