SleepWalk: Трехуровневый бенчмарк для стресс-тестирования управляемой инструкциями визуально-языковой навигации

Аннотация

Модели зрения-языка (Vision-Language Models, VLM) достигли значительного прогресса в мультимодальном восприятии и понимании языка, однако остается неясным, способны ли они надежно привязывать язык к пространственно согласованным, правдоподобно выполнимым действиям в трехмерных цифровых средах. Мы представляем SleepWalk — эталон для оценки прогнозирования траекторий на основе инструкций в трехмерных мирах с одной сценой, сгенерированных из текстовых описаний сцены и отфильтрованных по проходимости. В отличие от предыдущих эталонов навигации, ориентированных на исследование на большие расстояния между комнатами, SleepWalk нацелен на локализованное, ориентированное на взаимодействие воплощенное рассуждение: учитывая отрендеренные визуальные наблюдения и инструкцию на естественном языке, модель должна предсказать траекторию, которая соблюдает геометрию сцены, избегает столкновений и заканчивается в месте, совместимом с действием. Эталон охватывает разнообразные внутренние и внешние среды и организует задачи в три уровня пространственной и временной сложности, что позволяет детально анализировать привязку при возрастающей композиционной сложности. Используя стандартизированный протокол оценки на основе поточечного судьи (pointwise judge-based evaluation), мы оцениваем три передовые VLM на 2472 тщательно отобранных трехмерных средах с девятью инструкциями на сцену. Результаты выявляют систематические ошибки в обоснованном пространственном рассуждении, особенно при окклюзии, ограничениях на взаимодействие и многошаговых инструкциях: производительность падает по мере увеличения уровня сложности задач. В целом, современные VLM могут в некоторой степени генерировать траектории, которые одновременно пространственно согласованы, правдоподобно выполнимы и соответствуют целевым действиям. Выявляя сбои в контролируемой, но масштабируемой среде, SleepWalk предоставляет критически важный эталон для продвижения обоснованных мультимодальных рассуждений, воплощенного планирования, навигации на основе зрения и языка, а также агентов, способных к действиям в трехмерных средах.

English

Vision-Language Models (VLMs) have advanced rapidly in multimodal perception and language understanding, yet it remains unclear whether they can reliably ground language into spatially coherent, plausibly executable actions in 3D digital environments. We introduce SleepWalk, a benchmark for evaluating instruction-grounded trajectory prediction in single-scene 3D worlds generated from textual scene descriptions and filtered for navigability. Unlike prior navigation benchmarks centered on long-range exploration across rooms, SleepWalk targets localized, interaction-centric embodied reasoning: given rendered visual observations and a natural-language instruction, a model must predict a trajectory that respects scene geometry, avoids collisions, and terminates at an action-compatible location. The benchmark covers diverse indoor and outdoor environments and organizes tasks into three tiers of spatial and temporal difficulty, enabling fine-grained analysis of grounding under increasing compositional complexity. Using a standardized pointwise judge-based evaluation protocol, we evaluate three frontier VLMs on 2,472 curated 3D environments with nine instructions per scene. Results reveal systematic failures in grounded spatial reasoning, especially under occlusion, interaction constraints, and multi-step instructions: performance drops as the difficulty level of the tasks increase. In general, current VLMs can somewhat produce trajectories that are simultaneously spatially coherent, plausibly executable, and aligned with intended actions. By exposing failures in a controlled yet scalable setting, SleepWalk provides a critical benchmark for advancing grounded multimodal reasoning, embodied planning, vision-language navigation, and action-capable agents in 3D environments.

SleepWalk: Трехуровневый бенчмарк для стресс-тестирования управляемой инструкциями визуально-языковой навигации

SleepWalk: A Three-Tier Benchmark for Stress-Testing Instruction-Guided Vision-Language Navigation

Аннотация

Support