DSI-Bench: Um Benchmark para Inteligência Espacial Dinâmica
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
Autores: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
Resumo
Raciocinar sobre relações espaciais dinâmicas é essencial, pois tanto os observadores quanto os objetos frequentemente se movem simultaneamente. Embora os modelos de visão e linguagem (VLMs) e os modelos de expertise visual se destaquem em tarefas 2D e cenários estáticos, sua capacidade de compreender plenamente cenários 3D dinâmicos permanece limitada. Introduzimos a Inteligência Espacial Dinâmica e propomos o DSI-Bench, um benchmark com quase 1.000 vídeos dinâmicos e mais de 1.700 questões anotadas manualmente, abrangendo nove padrões de movimento desacoplados de observadores e objetos. Projetos espacial e temporalmente simétricos reduzem vieses e permitem uma avaliação sistemática do raciocínio dos modelos sobre o movimento próprio e o movimento dos objetos. Nossa avaliação de 14 VLMs e modelos especializados revela limitações importantes: os modelos frequentemente confundem o movimento do observador com o do objeto, exibem vieses semânticos e falham em inferir com precisão relações relativas em cenários dinâmicos. Nosso DSI-Bench fornece descobertas e insights valiosos para o desenvolvimento futuro de modelos gerais e especializados com inteligência espacial dinâmica.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.