ChatPaper.aiChatPaper

VideoAtlas: Navigeren door lange video's met logaritmische rekenkracht

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

March 18, 2026
Auteurs: Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI

Samenvatting

Het uitbreiden van taalmodellen naar video introduceert twee uitdagingen: representatie, waarbij bestaande methoden steunen op lossy benaderingen, en lange-context, waarbij op bijschriften of agenten gebaseerde pijplijnen video samenvatten tot tekst en visuele nauwkeurigheid verliezen. Om dit te overwinnen, introduceren we VideoAtlas, een taakonafhankelijke omgeving om video weer te geven als een hiërarchisch grid dat tegelijkertijd verliesvrij, navigeerbaar, schaalbaar, en vrij van bijschriften en preprocessing is. Een overzicht van de video is direct beschikbaar, en elke regio kan recursief worden ingezoomd, waarbij dezelfde visuele representatie uniform wordt gebruikt voor de video, tussentijdse onderzoeken en het geheugen van de agent, waardoor verliesrijke tekstconversie end-to-end wordt geëlimineerd. Deze hiërarchische structuur zorgt ervoor dat de toegangsdiepte slechts logaritmisch toeneemt met de videolengte. Voor lange-context boden Recursive Language Models (RLM's) recent een krachtige oplossing voor lange tekst, maar uitbreiding naar het visuele domein vereist een gestructureerde omgeving om in te recursen, wat VideoAtlas biedt. VideoAtlas als een Markov Decision Process ontgrendelt Video-RLM: een parallel Master-Worker-architectuur waarin een Master het globale onderzoek coördineert terwijl Workers gelijktijdig in toegewezen regio's boren om verliesvrij visueel bewijs te accumuleren. We demonstreren drie belangrijke bevindingen: (1)~logaritmische rekengroei met videoduur, verder versterkt door een 30-60% multimodale cache-treffratio voortkomend uit structureel hergebruik van het grid. (2)~omgevingsbudtering, waarbij het begrenzen van de maximale onderzoeksdiepte een principiële rekennauwkeurigheid-hyperparameter biedt. (3)~emergent adaptieve rekenallocatie die meeschaalt met vraaggranulariteit. Bij het schalen van 1-uur naar 10-uur benchmarks blijft Video-RLM de meest duur-robuuste methode met minimale nauwkeurigheidsafname, wat aantoont dat gestructureerde omgevingsnavigatie een haalbaar en schaalbaar paradigma is voor videobegrip.
English
Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.
PDF22March 21, 2026