DSI-Bench: 動的空間知能のためのベンチマーク
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
著者: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
要旨
動的な空間関係の推論は、観察者と物体が同時に移動することが多いため、極めて重要である。視覚言語モデル(VLM)や視覚専門家モデルは2Dタスクや静的なシナリオにおいて優れた性能を発揮するが、動的な3Dシナリオを完全に理解する能力は依然として限られている。本研究では、動的空間知能(Dynamic Spatial Intelligence)を導入し、DSI-Benchというベンチマークを提案する。このベンチマークは、約1,000の動画と、観察者と物体の9つの分離された運動パターンをカバーする1,700以上の手動アノテーション付き質問から構成されている。空間的および時間的に対称な設計により、バイアスが軽減され、モデルの自己運動と物体運動に関する推論を体系的に評価することが可能となる。14のVLMおよび専門家モデルの評価を通じて、モデルが観察者と物体の運動を混同しがちであること、意味的バイアスを示すこと、動的シナリオにおける相対的な関係を正確に推論できないことといった主要な限界が明らかになった。DSI-Benchは、動的空間知能を備えた汎用モデルおよび専門家モデルの今後の発展に向けた貴重な知見と洞察を提供する。
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.