SleepWalk : un benchmark à trois niveaux pour le test de résistance de la navigation vision-langage guidée par des instructions
SleepWalk: A Three-Tier Benchmark for Stress-Testing Instruction-Guided Vision-Language Navigation
May 11, 2026
Auteurs: Niyati Rawal, Sushant Ravva, Shah Alam Abir, Saksham Jain, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das
cs.AI
Résumé
Les modèles Vision-Langage (MVL) ont progressé rapidement dans la perception multimodale et la compréhension du langage, mais il reste incertain qu'ils puissent ancrer de manière fiable le langage dans des actions spatialement cohérentes et plausiblement exécutables dans des environnements numériques 3D. Nous présentons SleepWalk, un benchmark pour évaluer la prédiction de trajectoire ancrée sur des instructions dans des mondes 3D à scène unique générés à partir de descriptions textuelles de scènes et filtrés pour la navigabilité. Contrairement aux benchmarks de navigation antérieurs centrés sur l'exploration à longue distance entre les pièces, SleepWalk cible un raisonnement incarné localisé et centré sur l'interaction : étant donné des observations visuelles rendues et une instruction en langage naturel, un modèle doit prédire une trajectoire qui respecte la géométrie de la scène, évite les collisions et se termine à un emplacement compatible avec l'action. Le benchmark couvre divers environnements intérieurs et extérieurs et organise les tâches en trois niveaux de difficulté spatiale et temporelle, permettant une analyse fine de l'ancrage sous une complexité compositionnelle croissante. En utilisant un protocole d'évaluation standardisé basé sur un juge ponctuel, nous évaluons trois MVL de pointe sur 2 472 environnements 3D organisés avec neuf instructions par scène. Les résultats révèlent des échecs systématiques dans le raisonnement spatial ancré, en particulier sous occlusion, contraintes d'interaction et instructions multi-étapes : la performance diminue à mesure que le niveau de difficulté des tâches augmente. En général, les MVL actuels peuvent produire des trajectoires qui sont à la fois spatialement cohérentes, plausiblement exécutables et alignées sur les actions visées. En exposant les échecs dans un cadre contrôlé mais évolutif, SleepWalk fournit un benchmark critique pour faire progresser le raisonnement multimodal ancré, la planification incarnée, la navigation vision-langage et les agents capables d'action dans des environnements 3D.
English
Vision-Language Models (VLMs) have advanced rapidly in multimodal perception and language understanding, yet it remains unclear whether they can reliably ground language into spatially coherent, plausibly executable actions in 3D digital environments. We introduce SleepWalk, a benchmark for evaluating instruction-grounded trajectory prediction in single-scene 3D worlds generated from textual scene descriptions and filtered for navigability. Unlike prior navigation benchmarks centered on long-range exploration across rooms, SleepWalk targets localized, interaction-centric embodied reasoning: given rendered visual observations and a natural-language instruction, a model must predict a trajectory that respects scene geometry, avoids collisions, and terminates at an action-compatible location. The benchmark covers diverse indoor and outdoor environments and organizes tasks into three tiers of spatial and temporal difficulty, enabling fine-grained analysis of grounding under increasing compositional complexity. Using a standardized pointwise judge-based evaluation protocol, we evaluate three frontier VLMs on 2,472 curated 3D environments with nine instructions per scene. Results reveal systematic failures in grounded spatial reasoning, especially under occlusion, interaction constraints, and multi-step instructions: performance drops as the difficulty level of the tasks increase. In general, current VLMs can somewhat produce trajectories that are simultaneously spatially coherent, plausibly executable, and aligned with intended actions. By exposing failures in a controlled yet scalable setting, SleepWalk provides a critical benchmark for advancing grounded multimodal reasoning, embodied planning, vision-language navigation, and action-capable agents in 3D environments.