DSI-Bench: Een Benchmark voor Dynamische Ruimtelijke Intelligentie

Samenvatting

Redeneren over dynamische ruimtelijke relaties is essentieel, aangezien zowel waarnemers als objecten vaak gelijktijdig bewegen. Hoewel vision-language modellen (VLMs) en visuele expertise-modellen uitblinken in 2D-taken en statische scenario's, blijft hun vermogen om dynamische 3D-scenario's volledig te begrijpen beperkt. Wij introduceren Dynamische Ruimtelijke Intelligentie en stellen DSI-Bench voor, een benchmark met bijna 1.000 dynamische video's en meer dan 1.700 handmatig geannoteerde vragen die negen ontkoppelde bewegingspatronen van waarnemers en objecten bestrijken. Ruimtelijk en temporeel symmetrische ontwerpen verminderen vooroordelen en maken een systematische evaluatie mogelijk van de redeneervaardigheden van modellen over eigen beweging en objectbeweging. Onze evaluatie van 14 VLMs en expert-modellen onthult belangrijke beperkingen: modellen verwarren vaak waarnemer- en objectbeweging, vertonen semantische vooroordelen en slagen er niet in om relatieve relaties in dynamische scenario's nauwkeurig af te leiden. Onze DSI-Bench biedt waardevolle inzichten en bevindingen voor de toekomstige ontwikkeling van algemene en expert-modellen met dynamische ruimtelijke intelligentie.

English

Reasoning about dynamic spatial relationships is essential, as both observers and objects often move simultaneously. Although vision-language models (VLMs) and visual expertise models excel in 2D tasks and static scenarios, their ability to fully understand dynamic 3D scenarios remains limited. We introduce Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly 1,000 dynamic videos and over 1,700 manually annotated questions covering nine decoupled motion patterns of observers and objects. Spatially and temporally symmetric designs reduce biases and enable systematic evaluation of models' reasoning about self-motion and object motion. Our evaluation of 14 VLMs and expert models reveals key limitations: models often conflate observer and object motion, exhibit semantic biases, and fail to accurately infer relative relationships in dynamic scenarios. Our DSI-Bench provides valuable findings and insights about the future development of general and expertise models with dynamic spatial intelligence.

DSI-Bench: Een Benchmark voor Dynamische Ruimtelijke Intelligentie

DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

Samenvatting

Support