SleepWalk: Ein dreistufiger Benchmark zum Stresstest der anweisungsgeführten visuell-sprachlichen Navigation
SleepWalk: A Three-Tier Benchmark for Stress-Testing Instruction-Guided Vision-Language Navigation
May 11, 2026
Autoren: Niyati Rawal, Sushant Ravva, Shah Alam Abir, Saksham Jain, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das
cs.AI
Zusammenfassung
Vision-Sprach-Modelle (VSMs) haben sich im Bereich der multimodalen Wahrnehmung und des Sprachverständnisses rasant weiterentwickelt, doch bleibt unklar, ob sie Sprache zuverlässig in räumlich kohärente, plausibel ausführbare Handlungen in 3D-Digitalumgebungen verankern können. Wir stellen SleepWalk vor, eine Benchmark zur Bewertung anweisungsverankerter Trajektorienvorhersage in Einzelszenen-3D-Welten, die aus textbasierten Szenenbeschreibungen generiert und auf Navigierbarkeit gefiltert werden. Anders als frühere Navigationsbenchmarks, die auf Langstreckenerkundung über Räume hinweg abzielen, fokussiert SleepWalk auf lokalisiertes, interaktionszentriertes verkörpertes Schließen: Gegeben gerenderte visuelle Beobachtungen und eine natürlichsprachliche Anweisung muss ein Modell eine Trajektorie vorhersagen, die die Szenengeometrie respektiert, Kollisionen vermeidet und an einem handlungskompatiblen Ort endet. Die Benchmark umfasst verschiedene Innen- und Außenumgebungen und gliedert Aufgaben in drei Stufen räumlicher und zeitlicher Schwierigkeit, was eine detaillierte Analyse der Verankerung bei zunehmender kompositorischer Komplexität ermöglicht. Unter Verwendung eines standardisierten punktweisen richterbasierten Bewertungsprotokolls evaluieren wir drei führende VSMs an 2.472 kuratierten 3D-Umgebungen mit jeweils neun Anweisungen pro Szene. Die Ergebnisse zeigen systematische Fehler im verankerten räumlichen Schließen, insbesondere bei Verdeckung, Interaktionsbeschränkungen und mehrschrittigen Anweisungen: Die Leistung sinkt mit zunehmendem Schwierigkeitsgrad der Aufgaben. Im Allgemeinen können aktuelle VSMs gewissermaßen Trajektorien erzeugen, die gleichzeitig räumlich kohärent, plausibel ausführbar und mit den beabsichtigten Handlungen übereinstimmend sind. Indem SleepWalk Fehler in einer kontrollierten und dennoch skalierbaren Umgebung aufdeckt, bietet es eine kritische Benchmark zur Weiterentwicklung von verankertem multimodalen Schließen, verkörperter Planung, Bild-Sprach-Navigation und handlungsfähigen Agenten in 3D-Umgebungen.
English
Vision-Language Models (VLMs) have advanced rapidly in multimodal perception and language understanding, yet it remains unclear whether they can reliably ground language into spatially coherent, plausibly executable actions in 3D digital environments. We introduce SleepWalk, a benchmark for evaluating instruction-grounded trajectory prediction in single-scene 3D worlds generated from textual scene descriptions and filtered for navigability. Unlike prior navigation benchmarks centered on long-range exploration across rooms, SleepWalk targets localized, interaction-centric embodied reasoning: given rendered visual observations and a natural-language instruction, a model must predict a trajectory that respects scene geometry, avoids collisions, and terminates at an action-compatible location. The benchmark covers diverse indoor and outdoor environments and organizes tasks into three tiers of spatial and temporal difficulty, enabling fine-grained analysis of grounding under increasing compositional complexity. Using a standardized pointwise judge-based evaluation protocol, we evaluate three frontier VLMs on 2,472 curated 3D environments with nine instructions per scene. Results reveal systematic failures in grounded spatial reasoning, especially under occlusion, interaction constraints, and multi-step instructions: performance drops as the difficulty level of the tasks increase. In general, current VLMs can somewhat produce trajectories that are simultaneously spatially coherent, plausibly executable, and aligned with intended actions. By exposing failures in a controlled yet scalable setting, SleepWalk provides a critical benchmark for advancing grounded multimodal reasoning, embodied planning, vision-language navigation, and action-capable agents in 3D environments.