MindJourney: Масштабирование во время тестирования с использованием мировых моделей для пространственного мышления
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
July 16, 2025
Авторы: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI
Аннотация
Пространственное мышление в трехмерном пространстве является ключевым аспектом человеческого познания и незаменимым для задач, связанных с взаимодействием с окружающей средой, таких как навигация и манипулирование объектами. Однако современные модели, объединяющие зрение и язык (VLMs), часто испытывают трудности с задачами, которые кажутся простыми, например, с предсказанием того, как будет выглядеть сцена после эгоцентрического движения: они воспринимают двумерные изображения, но не имеют внутренней модели трехмерной динамики. В связи с этим мы предлагаем MindJourney — фреймворк для масштабирования на этапе тестирования, который наделяет VLM этой недостающей способностью, связывая ее с управляемой моделью мира, основанной на диффузии видео. VLM итеративно создает краткую траекторию камеры, в то время как модель мира синтезирует соответствующее изображение на каждом шаге. Затем VLM анализирует собранные в ходе интерактивного исследования данные, полученные из нескольких точек зрения. Без какого-либо дообучения наш MindJourney демонстрирует средний прирост производительности более чем на 8% на репрезентативном бенчмарке пространственного мышления SAT, что показывает, что сочетание VLMs с моделями мира для масштабирования на этапе тестирования предлагает простой и универсальный путь к надежному трехмерному мышлению. В то же время наш метод также превосходит VLMs, обученные с использованием обучения с подкреплением на этапе тестирования, что демонстрирует потенциал нашего подхода, использующего модели мира для масштабирования на этапе тестирования.
English
Spatial reasoning in 3D space is central to human cognition and indispensable
for embodied tasks such as navigation and manipulation. However,
state-of-the-art vision-language models (VLMs) struggle frequently with tasks
as simple as anticipating how a scene will look after an egocentric motion:
they perceive 2D images but lack an internal model of 3D dynamics. We therefore
propose MindJourney, a test-time scaling framework that grants a VLM with this
missing capability by coupling it to a controllable world model based on video
diffusion. The VLM iteratively sketches a concise camera trajectory, while the
world model synthesizes the corresponding view at each step. The VLM then
reasons over this multi-view evidence gathered during the interactive
exploration. Without any fine-tuning, our MindJourney achieves over an average
8% performance boost on the representative spatial reasoning benchmark SAT,
showing that pairing VLMs with world models for test-time scaling offers a
simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also
improves upon the test-time inference VLMs trained through reinforcement
learning, which demonstrates the potential of our method that utilizes world
models for test-time scaling.