SleepWalk: Un benchmark de tres niveles para pruebas de estrés de la navegación visión-lenguaje guiada por instrucciones.
SleepWalk: A Three-Tier Benchmark for Stress-Testing Instruction-Guided Vision-Language Navigation
May 11, 2026
Autores: Niyati Rawal, Sushant Ravva, Shah Alam Abir, Saksham Jain, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das
cs.AI
Resumen
Los Modelos de Visión y Lenguaje (VLMs) han avanzado rápidamente en la percepción multimodal y la comprensión del lenguaje, pero aún no está claro si pueden anclar de manera fiable el lenguaje en trayectorias espacialmente coherentes y plausiblemente ejecutables en entornos digitales 3D. Presentamos SleepWalk, un benchmark para evaluar la predicción de trayectorias guiadas por instrucciones en mundos 3D de una sola escena generados a partir de descripciones textuales de escenas y filtrados por navegabilidad. A diferencia de benchmarks previos de navegación centrados en la exploración de largo alcance a través de habitaciones, SleepWalk se enfoca en el razonamiento encarnado localizado y centrado en la interacción: dadas observaciones visuales renderizadas y una instrucción en lenguaje natural, el modelo debe predecir una trayectoria que respete la geometría de la escena, evite colisiones y termine en una ubicación compatible con la acción. El benchmark abarca diversos entornos interiores y exteriores y organiza las tareas en tres niveles de dificultad espacial y temporal, permitiendo un análisis detallado del anclaje bajo una complejidad compositiva creciente. Utilizando un protocolo de evaluación estandarizado basado en un juez puntual, evaluamos tres VLMs de frontera en 2.472 entornos 3D curados con nueve instrucciones por escena. Los resultados revelan fallos sistemáticos en el razonamiento espacial fundamentado, especialmente bajo oclusión, restricciones de interacción e instrucciones de múltiples pasos: el rendimiento disminuye a medida que aumenta el nivel de dificultad de las tareas. En general, los VLMs actuales pueden producir trayectorias que son simultáneamente coherentes espacialmente, plausiblemente ejecutables y alineadas con las acciones previstas, aunque de forma limitada. Al exponer fallos en un entorno controlado pero escalable, SleepWalk proporciona un benchmark crítico para avanzar en el razonamiento multimodal fundamentado, la planificación encarnada, la navegación visual-lingüística y los agentes con capacidad de acción en entornos 3D.
English
Vision-Language Models (VLMs) have advanced rapidly in multimodal perception and language understanding, yet it remains unclear whether they can reliably ground language into spatially coherent, plausibly executable actions in 3D digital environments. We introduce SleepWalk, a benchmark for evaluating instruction-grounded trajectory prediction in single-scene 3D worlds generated from textual scene descriptions and filtered for navigability. Unlike prior navigation benchmarks centered on long-range exploration across rooms, SleepWalk targets localized, interaction-centric embodied reasoning: given rendered visual observations and a natural-language instruction, a model must predict a trajectory that respects scene geometry, avoids collisions, and terminates at an action-compatible location. The benchmark covers diverse indoor and outdoor environments and organizes tasks into three tiers of spatial and temporal difficulty, enabling fine-grained analysis of grounding under increasing compositional complexity. Using a standardized pointwise judge-based evaluation protocol, we evaluate three frontier VLMs on 2,472 curated 3D environments with nine instructions per scene. Results reveal systematic failures in grounded spatial reasoning, especially under occlusion, interaction constraints, and multi-step instructions: performance drops as the difficulty level of the tasks increase. In general, current VLMs can somewhat produce trajectories that are simultaneously spatially coherent, plausibly executable, and aligned with intended actions. By exposing failures in a controlled yet scalable setting, SleepWalk provides a critical benchmark for advancing grounded multimodal reasoning, embodied planning, vision-language navigation, and action-capable agents in 3D environments.