DSI-Bench: Un Benchmark per l'Intelligenza Spaziale Dinamica
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
Autori: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
Abstract
Ragionare sulle relazioni spaziali dinamiche è essenziale, poiché sia gli osservatori che gli oggetti spesso si muovono simultaneamente. Sebbene i modelli visione-linguaggio (VLMs) e i modelli di competenza visiva eccellano in compiti 2D e scenari statici, la loro capacità di comprendere appieno scenari 3D dinamici rimane limitata. Introduciamo l'Intelligenza Spaziale Dinamica e proponiamo DSI-Bench, un benchmark con quasi 1.000 video dinamici e oltre 1.700 domande annotate manualmente che coprono nove modelli di movimento disaccoppiati di osservatori e oggetti. Progettazioni spaziali e temporali simmetriche riducono i bias e consentono una valutazione sistematica del ragionamento dei modelli sul movimento proprio e sul movimento degli oggetti. La nostra valutazione di 14 VLMs e modelli esperti rivela limitazioni chiave: i modelli spesso confondono il movimento dell'osservatore e dell'oggetto, mostrano bias semantici e non riescono a inferire accuratamente le relazioni relative in scenari dinamici. Il nostro DSI-Bench fornisce risultati preziosi e intuizioni sullo sviluppo futuro di modelli generali e di competenza con intelligenza spaziale dinamica.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.