VideoAtlas : Navigation dans les vidéos longues avec une complexité logarithmique

Résumé

L'extension des modèles de langage à la vidéo présente deux défis majeurs : la représentation, où les méthodes existantes reposent sur des approximations avec perte, et le contexte long, où les pipelines basés sur des légendes ou des agents réduisent la vidéo à du texte et altèrent la fidélité visuelle. Pour les surmonter, nous présentons VideoAtlas, un environnement agnostique aux tâches qui représente la vidéo sous forme de grille hiérarchique, simultanément sans perte, navigable, évolutive, et exempt de légendes et de prétraitement. Une vue d'ensemble de la vidéo est disponible immédiatement, et toute région peut être zoomée de manière récursive, la même représentation visuelle étant utilisée uniformément pour la vidéo, les investigations intermédiaires et la mémoire de l'agent, éliminant ainsi toute conversion textuelle avec perte de bout en bout. Cette structure hiérarchique garantit que la profondeur d'accès ne croît que logarithmiquement avec la durée de la vidéo. Pour le contexte long, les Modèles de Langage Récursifs (RLM) ont récemment offert une solution puissante pour le texte long, mais leur extension au domaine visuel nécessite un environnement structuré dans lequel récurser, que VideoAtlas fournit. En formalisant VideoAtlas comme un Processus de Décision Markovien, nous débloquons Video-RLM : une architecture parallèle Maître-Travailleurs où un Maître coordonne l'exploration globale tandis que des Travailleurs forent concurremment dans des régions assignées pour accumuler des preuves visuelles sans perte. Nous démontrons trois résultats clés : (1)~une croissance logarithmique du calcul avec la durée vidéo, amplifiée par un taux de succès du cache multimodal de 30 à 60 % résultant de la réutilisation structurelle de la grille. (2)~le budget d'exploration, où le fait de borner la profondeur d'exploration maximale fournit un hyperparamètre principé pour arbitrer entre calcul et précision. (3)~une allocation de calcul adaptive émergente qui s'ajuste à la granularité de la question. Lors du passage à l'échelle, de benchmarks d'1 heure à 10 heures, Video-RLM reste la méthode la plus robuste à la durée, avec une dégradation minimale de la précision, démontrant que la navigation dans un environnement structuré est un paradigme viable et évolutif pour la compréhension vidéo.

English

Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce VideoAtlas, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which VideoAtlas provides. VideoAtlas as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.

VideoAtlas : Navigation dans les vidéos longues avec une complexité logarithmique

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Résumé

Support