ChatPaper.aiChatPaper

MindJourney: Test-Time-Skalierung mit Weltmodellen für räumliches Denken

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

July 16, 2025
papers.authors: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI

papers.abstract

Räumliches Denken im 3D-Raum ist zentral für die menschliche Kognition und unverzichtbar für verkörperte Aufgaben wie Navigation und Manipulation. Allerdings haben state-of-the-art Vision-Language-Modelle (VLMs) häufig Schwierigkeiten mit Aufgaben, die so einfach sind wie die Vorhersage, wie eine Szene nach einer egozentrischen Bewegung aussehen wird: Sie nehmen 2D-Bilder wahr, verfügen jedoch nicht über ein internes Modell der 3D-Dynamik. Daher schlagen wir MindJourney vor, ein Framework für das Skalieren zur Testzeit, das einem VLM diese fehlende Fähigkeit verleiht, indem es ihn mit einem steuerbaren Weltmodell auf Basis von Video-Diffusion koppelt. Das VLM skizziert iterativ eine prägnante Kameratrajektorie, während das Weltmodell die entsprechende Ansicht in jedem Schritt synthetisiert. Das VLM schließt dann aus den während der interaktiven Erkundung gesammelten Mehrfachansichten. Ohne jegliches Fine-Tuning erzielt unser MindJourney durchschnittlich eine Leistungssteigerung von über 8 % auf dem repräsentativen Benchmark für räumliches Denken SAT, was zeigt, dass die Kombination von VLMs mit Weltmodellen für das Skalieren zur Testzeit einen einfachen, plug-and-play Weg zu robustem 3D-Denken bietet. Gleichzeitig verbessert unsere Methode auch die Inferenz zur Testzeit von VLMs, die durch Reinforcement Learning trainiert wurden, was das Potenzial unserer Methode unterstreicht, die Weltmodelle für das Skalieren zur Testzeit nutzt.
English
Spatial reasoning in 3D space is central to human cognition and indispensable for embodied tasks such as navigation and manipulation. However, state-of-the-art vision-language models (VLMs) struggle frequently with tasks as simple as anticipating how a scene will look after an egocentric motion: they perceive 2D images but lack an internal model of 3D dynamics. We therefore propose MindJourney, a test-time scaling framework that grants a VLM with this missing capability by coupling it to a controllable world model based on video diffusion. The VLM iteratively sketches a concise camera trajectory, while the world model synthesizes the corresponding view at each step. The VLM then reasons over this multi-view evidence gathered during the interactive exploration. Without any fine-tuning, our MindJourney achieves over an average 8% performance boost on the representative spatial reasoning benchmark SAT, showing that pairing VLMs with world models for test-time scaling offers a simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also improves upon the test-time inference VLMs trained through reinforcement learning, which demonstrates the potential of our method that utilizes world models for test-time scaling.
PDF141July 18, 2025