ChatPaper.aiChatPaper

VideoAtlas: Navigare nei Video di Lunga Durata con Calcolo Logaritmico

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

March 18, 2026
Autori: Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI

Abstract

L'estensione dei modelli linguistici al video introduce due sfide: la rappresentazione, dove i metodi esistenti si basano su approssimazioni con perdita di informazioni, e il contesto lungo, dove le pipeline basate su descrizioni o agenti comprimono il video in testo, perdendo fedeltà visiva. Per superare ciò, introduciamo VideoAtlas, un ambiente indipendente dal compito che rappresenta il video come una griglia gerarchica, simultaneamente senza perdita di informazioni, navigabile, scalabile, libero da descrizioni e pre-elaborazione. Una panoramica del video è disponibile a colpo d'occhio, e qualsiasi regione può essere ingrandita ricorsivamente, utilizzando la stessa rappresentazione visiva in modo uniforme per il video, le indagini intermedie e la memoria dell'agente, eliminando end-to-end la conversione lossy in testo. Questa struttura gerarchica garantisce che la profondità di accesso cresca solo in modo logaritmico con la lunghezza del video. Per il contesto lungo, i Modelli Linguistici Ricorsivi (RLM) hanno recentemente offerto una soluzione potente per il testo lungo, ma estenderli al dominio visivo richiede un ambiente strutturato in cui recursare, che VideoAtlas fornisce. VideoAtlas modellato come Processo Decisionale di Markov sblocca Video-RLM: un'architettura Master-Worker parallela in cui un Master coordina l'esplorazione globale mentre i Worker perforano concorrentemente nelle regioni assegnate per accumulare evidenza visiva senza perdite. Dimostriamo tre risultati chiave: (1) crescita logaritmica del calcolo con la durata del video, ulteriormente amplificata da un tasso di hit della cache multimodale del 30-60% derivante dal riutilizzo strutturale della griglia. (2) budgeting dell'ambiente, dove delimitare la profondità massima di esplorazione fornisce un iperparametro principio per bilanciare calcolo e accuratezza. (3) allocazione emergente e adattiva del calcolo che scala con la granularità della domanda. Scalando da benchmark di 1 ora a 10 ore, Video-RLM rimane il metodo più robusto alla durata con degradazione minima dell'accuratezza, dimostrando che la navigazione in un ambiente strutturato è un paradigma valido e scalabile per la comprensione video.
English
Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.
PDF22March 21, 2026