VideoAtlas: Navegando por Vídeos de Longa Duração com Complexidade Logarítmica
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute
March 18, 2026
Autores: Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Resumo
A extensão de modelos de linguagem para vídeo introduz dois desafios: a representação, onde os métodos existentes dependem de aproximações com perdas, e o contexto longo, onde *pipelines* baseados em legendas ou agentes comprimem o vídeo em texto e perdem fidelidade visual. Para superar isso, apresentamos o VideoAtlas, um ambiente agnóstico à tarefa que representa o vídeo como uma grade hierárquica, simultaneamente sem perdas, navegável, escalável, livre de legendas e pré-processamento. Uma visão geral do vídeo está disponível de imediato, e qualquer região pode ser ampliada recursivamente, com a mesma representação visual usada uniformemente para o vídeo, investigações intermediárias e a memória do agente, eliminando a conversão com perdas para texto de ponta a ponta. Esta estrutura hierárquica garante que a profundidade de acesso cresça apenas logaritmicamente com a duração do vídeo. Para contexto longo, os Modelos de Linguagem Recursivos (RLMs) ofereceram recentemente uma solução poderosa para texto longo, mas estendê-los para o domínio visual requer um ambiente estruturado para recursar, que o VideoAtlas fornece. VideoAtlas como um Processo de Decisão Markoviano desbloqueia o Video-RLM: uma arquitetura paralela Mestre-Trabalhador onde um Mestre coordena a exploração global enquanto os Trabalhadores perfuram concorrentemente nas regiões atribuídas para acumular evidência visual sem perdas. Demonstramos três descobertas principais: (1) crescimento computacional logarítmico com a duração do vídeo, amplificado ainda mais por uma taxa de acerto de *cache* multimodal de 30-60% resultante da reutilização estrutural da grade. (2) orçamentação do ambiente, onde limitar a profundidade máxima de exploração fornece um hiperparâmetro preciso de compensação entre computação e precisão. (3) alocação computacional adaptativa emergente que escala com a granularidade da pergunta. Ao escalar de *benchmarks* de 1 hora para 10 horas, o Video-RLM permanece o método mais robusto à duração com degradação mínima de precisão, demonstrando que a navegação em ambiente estruturado é um paradigma viável e escalável para a compreensão de vídeo.
English
Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.