VideoAtlas: Навигация по длинным видео с логарифмическими вычислительными затратами

Аннотация

Расширение языковых моделей на видео сталкивается с двумя проблемами: представление данных, где существующие методы полагаются на приближенные (потериные) аппроксимации, и длинный контекст, где конвейеры на основе заголовков или агентов сворачивают видео в текст, теряя визуальную точность. Для преодоления этого мы представляем VideoAtlas, универсальную среду для представления видео в виде иерархической сетки, которая одновременно является беспотерьной, навигируемой, масштабируемой, не требующей заголовков и предварительной обработки. Обзор видео доступен с первого взгляда, а любая область может быть рекурсивно увеличена, причем одно и то же визуальное представление единообразно используется для самого видео, промежуточных исследований и памяти агента, что исключает потери при преобразовании в текст на всех этапах. Эта иерархическая структура гарантирует, что глубина доступа растет лишь логарифмически с длиной видео. Что касается длинного контекста, то Рекурсивные Языковые Модели (РЯМ) недавно предложили мощное решение для длинного текста, но их расширение на визуальную область требует структурированной среды для рекурсии, которую и предоставляет VideoAtlas. Рассматривая VideoAtlas как Марковский процесс принятия решений, мы получаем Video-RLM: параллельную архитектуру «Мастер-Работник», где Мастер координирует глобальное исследование, а Работники параллельно углубляются в назначенные области для накопления беcпотерьных визуальных свидетельств. Мы демонстрируем три ключевых результата: (1)~логарифмический рост вычислительных затрат с длительностью видео, дополнительно усиленный 30-60\% процентом попаданий в мультимодальный кэш, возникающим благодаря структурному повтору в сетке. (2)~Бюджетирование среды, где ограничение максимальной глубины исследования предоставляет принципиальный гиперпараметр для баланса вычислений и точности. (3)~Возникающее адаптивное распределение вычислений, которое масштабируется с гранулярностью вопроса. При переходе от бенчмарков длительностью в 1 час к 10-часовым, Video-RLM остается наиболее устойчивым к длительности методом с минимальной деградацией точности, демонстрируя, что навигация в структурированной среде является жизнеспособной и масштабируемой парадигмой для понимания видео.

English

Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.

VideoAtlas: Навигация по длинным видео с логарифмическими вычислительными затратами

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Аннотация

Support