DSI-Bench: 동적 공간 지능을 위한 벤치마크
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
저자: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
초록
동적 공간 관계에 대한 추론은 관찰자와 객체가 동시에 움직이는 경우가 많기 때문에 필수적입니다. 비전-언어 모델(VLMs)과 시각 전문가 모델은 2D 작업과 정적 시나리오에서 뛰어난 성능을 보이지만, 동적 3D 시나리오를 완전히 이해하는 능력은 여전히 제한적입니다. 우리는 동적 공간 지능(Dynamic Spatial Intelligence)을 소개하고, 관찰자와 객체의 9가지 분리된 운동 패턴을 다루는 약 1,000개의 동적 비디오와 1,700개 이상의 수동으로 주석이 달린 질문으로 구성된 DSI-Bench 벤치마크를 제안합니다. 공간적 및 시간적으로 대칭적인 설계는 편향을 줄이고 모델의 자기 운동 및 객체 운동에 대한 추론을 체계적으로 평가할 수 있게 합니다. 14개의 VLM과 전문가 모델을 평가한 결과, 주요 한계점이 드러났습니다: 모델들은 종종 관찰자와 객체의 운동을 혼동하고, 의미론적 편향을 보이며, 동적 시나리오에서 상대적 관계를 정확히 추론하지 못합니다. 우리의 DSI-Bench는 동적 공간 지능을 갖춘 일반 및 전문가 모델의 미래 개발에 대한 귀중한 발견과 통찰을 제공합니다.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.