DSI-Bench: Бенчмарк для оценки динамического пространственного интеллекта
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
October 21, 2025
Авторы: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao
cs.AI
Аннотация
Осмысление динамических пространственных отношений крайне важно, поскольку как наблюдатели, так и объекты часто движутся одновременно. Хотя модели, объединяющие зрение и язык (VLMs), и модели визуальной экспертизы преуспевают в 2D-задачах и статических сценариях, их способность полностью понимать динамические 3D-сценарии остается ограниченной. Мы представляем концепцию Динамического Пространственного Интеллекта и предлагаем DSI-Bench — эталонный набор, включающий почти 1000 динамических видео и более 1700 вручную аннотированных вопросов, охватывающих девять разделенных паттернов движения наблюдателей и объектов. Пространственно-временные симметричные конструкции снижают предвзятость и позволяют систематически оценивать способность моделей анализировать собственное движение и движение объектов. Наша оценка 14 VLMs и экспертных моделей выявила ключевые ограничения: модели часто путают движение наблюдателя и объекта, демонстрируют семантические предубеждения и не могут точно выводить относительные отношения в динамических сценариях. Наш DSI-Bench предоставляет ценные выводы и идеи для будущего развития универсальных и экспертных моделей с динамическим пространственным интеллектом.
English
Reasoning about dynamic spatial relationships is essential, as both observers
and objects often move simultaneously. Although vision-language models (VLMs)
and visual expertise models excel in 2D tasks and static scenarios, their
ability to fully understand dynamic 3D scenarios remains limited. We introduce
Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly
1,000 dynamic videos and over 1,700 manually annotated questions covering nine
decoupled motion patterns of observers and objects. Spatially and temporally
symmetric designs reduce biases and enable systematic evaluation of models'
reasoning about self-motion and object motion. Our evaluation of 14 VLMs and
expert models reveals key limitations: models often conflate observer and
object motion, exhibit semantic biases, and fail to accurately infer relative
relationships in dynamic scenarios. Our DSI-Bench provides valuable findings
and insights about the future development of general and expertise models with
dynamic spatial intelligence.