DSI-Bench: Een Benchmark voor Dynamische Ruimtelijke Intelligentie
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
Auteurs: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
Samenvatting
Redeneren over dynamische ruimtelijke relaties is essentieel, aangezien zowel waarnemers als objecten vaak gelijktijdig bewegen. Hoewel vision-language modellen (VLMs) en visuele expertise-modellen uitblinken in 2D-taken en statische scenario's, blijft hun vermogen om dynamische 3D-scenario's volledig te begrijpen beperkt. Wij introduceren Dynamische Ruimtelijke Intelligentie en stellen DSI-Bench voor, een benchmark met bijna 1.000 dynamische video's en meer dan 1.700 handmatig geannoteerde vragen die negen ontkoppelde bewegingspatronen van waarnemers en objecten bestrijken. Ruimtelijk en temporeel symmetrische ontwerpen verminderen vooroordelen en maken een systematische evaluatie mogelijk van de redeneervaardigheden van modellen over eigen beweging en objectbeweging. Onze evaluatie van 14 VLMs en expert-modellen onthult belangrijke beperkingen: modellen verwarren vaak waarnemer- en objectbeweging, vertonen semantische vooroordelen en slagen er niet in om relatieve relaties in dynamische scenario's nauwkeurig af te leiden. Onze DSI-Bench biedt waardevolle inzichten en bevindingen voor de toekomstige ontwikkeling van algemene en expert-modellen met dynamische ruimtelijke intelligentie.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.