DSI-Bench : Un référentiel pour l'intelligence spatiale dynamique
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
papers.authors: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
papers.abstract
Le raisonnement sur les relations spatiales dynamiques est essentiel, car les observateurs et les objets se déplacent souvent simultanément. Bien que les modèles vision-langage (VLMs) et les modèles d'expertise visuelle excellent dans les tâches en 2D et les scénarios statiques, leur capacité à comprendre pleinement les scénarios dynamiques en 3D reste limitée. Nous introduisons l'Intelligence Spatiale Dynamique et proposons DSI-Bench, un benchmark comprenant près de 1 000 vidéos dynamiques et plus de 1 700 questions annotées manuellement, couvrant neuf motifs de mouvement découplés des observateurs et des objets. Des conceptions spatialement et temporellement symétriques réduisent les biais et permettent une évaluation systématique du raisonnement des modèles concernant le mouvement de l'observateur et celui des objets. Notre évaluation de 14 VLMs et modèles experts révèle des limitations clés : les modèles confondent souvent le mouvement de l'observateur et celui des objets, présentent des biais sémantiques et échouent à inférer avec précision les relations relatives dans des scénarios dynamiques. Notre DSI-Bench fournit des résultats précieux et des insights pour le développement futur de modèles généraux et experts dotés d'une intelligence spatiale dynamique.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.