ESPIRE: Диагностический эталон для оценки пространственного мышления визуально-языковых моделей в физическом окружении

Аннотация

В последнее время в моделях "визуальный язык" (VLM) наметилась тенденция к улучшению их пространственного восприятия для применения в воплощенных доменах. Несмотря на прогресс, существующие методы оценки были ограничены как по методологии, так и по охвату, что препятствовало быстрой итерационной разработке моделей. Для устранения этих ограничений мы предлагаем ESPIRE — диагностический бенчмарк для воплощенного пространственного мышления. ESPIRE предоставляет симулированный мир, который физически обосновывает VLM-модели и оценивает их на задачах, ориентированных на пространственное мышление в робототехнике, тем самым сокращая разрыв между оценкой и реальным развертыванием. Для адаптации VLM-моделей к робототехническим задачам мы разлагаем каждую задачу на локализацию и исполнение, представляя обе как генеративные проблемы, что резко контрастирует с преобладающими дискриминативными оценками (например, через визуальные вопросы-ответы), которые полагаются на отвлекающие факторы и игнорируют исполнение. Такое разложение дополнительно позволяет проводить детальный анализ, выходящий за рамки пассивного пространственного мышления в сторону мышления для действия. Мы системно проектируем ESPIRE как на уровне инструкций, так и на уровне окружения, обеспечивая широкий охват сценариев пространственного рассуждения. Мы используем ESPIRE для диагностики ряда передовых VLM-моделей и предоставляем углубленный анализ их поведения в контексте пространственного мышления.

English

A recent trend in vision-language models (VLMs) has been to enhance their spatial cognition for embodied domains. Despite progress, existing evaluations have been limited both in paradigm and in coverage, hindering rapid, iterative model development. To address these limitations, we propose ESPIRE, a diagnostic benchmark for embodied spatial reasoning. ESPIRE offers a simulated world that physically grounds VLMs and evaluates them on spatial-reasoning-centric robotic tasks, thus narrowing the gap between evaluation and real-world deployment. To adapt VLMs to robotic tasks, we decompose each task into localization and execution, and frame both as generative problems, in stark contrast to predominant discriminative evaluations (e.g., via visual-question answering) that rely on distractors and discard execution. This decomposition further enables a fine-grained analysis beyond passive spatial reasoning toward reasoning to act. We systematically design ESPIRE both at the instruction level and at the environment level, ensuring broad coverage of spatial reasoning scenarios. We use ESPIRE to diagnose a range of frontier VLMs and provide in-depth analysis of their spatial reasoning behaviors.

ESPIRE: Диагностический эталон для оценки пространственного мышления визуально-языковых моделей в физическом окружении

ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Аннотация

Support