ChatPaper.aiChatPaper

DSI-Bench: Ein Benchmark für dynamische räumliche Intelligenz

DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

October 21, 2025
papers.authors: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI

papers.abstract

Das Verständnis dynamischer räumlicher Beziehungen ist entscheidend, da sowohl Beobachter als auch Objekte sich oft gleichzeitig bewegen. Obwohl Vision-Language-Modelle (VLMs) und Modelle mit visueller Expertise bei 2D-Aufgaben und statischen Szenarien hervorragende Leistungen erbringen, bleibt ihre Fähigkeit, dynamische 3D-Szenarien vollständig zu verstehen, begrenzt. Wir führen das Konzept der Dynamischen Räumlichen Intelligenz ein und stellen DSI-Bench vor, einen Benchmark mit fast 1.000 dynamischen Videos und über 1.700 manuell annotierten Fragen, die neun entkoppelte Bewegungsmuster von Beobachtern und Objekten abdecken. Räumlich und zeitlich symmetrische Designs reduzieren Verzerrungen und ermöglichen eine systematische Bewertung der Fähigkeit von Modellen, Eigenbewegung und Objektbewegung zu analysieren. Unsere Auswertung von 14 VLMs und Expertenmodellen zeigt wesentliche Einschränkungen auf: Modelle verwechseln häufig die Bewegung des Beobachters mit der des Objekts, weisen semantische Verzerrungen auf und scheitern daran, relative Beziehungen in dynamischen Szenarien präzise abzuleiten. Unser DSI-Bench liefert wertvolle Erkenntnisse und Einblicke für die zukünftige Entwicklung allgemeiner und spezialisierter Modelle mit dynamischer räumlicher Intelligenz.
English
Reasoning about dynamic spatial relationships is essential, as both observers and objects often move simultaneously. Although vision-language models (VLMs) and visual expertise models excel in 2D tasks and static scenarios, their ability to fully understand dynamic 3D scenarios remains limited. We introduce Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly 1,000 dynamic videos and over 1,700 manually annotated questions covering nine decoupled motion patterns of observers and objects. Spatially and temporally symmetric designs reduce biases and enable systematic evaluation of models' reasoning about self-motion and object motion. Our evaluation of 14 VLMs and expert models reveals key limitations: models often conflate observer and object motion, exhibit semantic biases, and fail to accurately infer relative relationships in dynamic scenarios. Our DSI-Bench provides valuable findings and insights about the future development of general and expertise models with dynamic spatial intelligence.
PDF72October 22, 2025