ESPIRE: 시각-언어 모델의 체화된 공간 추론을 위한 진단 벤치마크
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models
March 13, 2026
저자: Yanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng
cs.AI
초록
비전-언어 모델(VLM)의 최근 동향은 구현된 도메인에서 공간 인지 능력을 향상시키는 방향으로 나아가고 있습니다. 그러나 진전이 있었음에도 기존 평가는 패러다임과 범위 모두에서 제한적이어서 신속하고 반복적인 모델 개발을 저해해 왔습니다. 이러한 한계를 해결하기 위해 우리는 구현된 공간 추론을 위한 진단 벤치마크인 ESPIRE를 제안합니다. ESPIRE는 VLM을 물리적으로 기반하게 하는 시뮬레이션 세계를 제공하고 공간 추론 중심의 로봇 작업에 대해 이를 평가하여 평가와 실제 배치 간의 격차를 좁힙니다. VLM을 로봇 작업에 적응시키기 위해 각 작업을 위치 추정과 실행으로 분해하고, 둘 모두를 생성적 문제로 재구성합니다. 이는 주류를 이루는 판별식 평가(예: 시각 질의응답을 통한)가 주로 산만 요소에 의존하고 실행을 배제하는 것과는 대조적입니다. 이러한 분해는 더 나아가 수동적 공간 추론을 넘어 행동을 위한 추론으로 세분화된 분석을 가능하게 합니다. 우리는 지시 수준과 환경 수준 모두에서 ESPIRE를 체계적으로 설계하여 공간 추론 시나리오의 광범위한 커버리지를 보장합니다. ESPIRE를 사용하여 최첨단 VLM들을 진단하고 그들의 공간 추론 행동에 대한 심층 분석을 제공합니다.
English
A recent trend in vision-language models (VLMs) has been to enhance their spatial cognition for embodied domains. Despite progress, existing evaluations have been limited both in paradigm and in coverage, hindering rapid, iterative model development. To address these limitations, we propose ESPIRE, a diagnostic benchmark for embodied spatial reasoning. ESPIRE offers a simulated world that physically grounds VLMs and evaluates them on spatial-reasoning-centric robotic tasks, thus narrowing the gap between evaluation and real-world deployment. To adapt VLMs to robotic tasks, we decompose each task into localization and execution, and frame both as generative problems, in stark contrast to predominant discriminative evaluations (e.g., via visual-question answering) that rely on distractors and discard execution. This decomposition further enables a fine-grained analysis beyond passive spatial reasoning toward reasoning to act. We systematically design ESPIRE both at the instruction level and at the environment level, ensuring broad coverage of spatial reasoning scenarios. We use ESPIRE to diagnose a range of frontier VLMs and provide in-depth analysis of their spatial reasoning behaviors.