MindJourney: Test-Time Schalen met Wereldmodellen voor Ruimtelijk Redeneren
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
July 16, 2025
Auteurs: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI
Samenvatting
Ruimtelijk redeneren in 3D-ruimte is essentieel voor de menselijke cognitie en onmisbaar voor belichaamde taken zoals navigatie en manipulatie. Toch worstelen state-of-the-art vision-language-modellen (VLMs) vaak met taken die zo eenvoudig zijn als het voorspellen hoe een scène eruit zal zien na een egocentrische beweging: ze nemen 2D-beelden waar, maar missen een intern model van 3D-dynamiek. Daarom stellen we MindJourney voor, een test-time schalingsframework dat een VLM deze ontbrekende capaciteit geeft door het te koppelen aan een bestuurbaar wereldmodel gebaseerd op videodiffusie. De VLM schetst iteratief een beknopte cameratrajectorie, terwijl het wereldmodel het corresponderende beeld bij elke stap synthetiseert. De VLM redeneert vervolgens over dit multi-view bewijsmateriaal dat tijdens de interactieve verkenning is verzameld. Zonder enige fine-tuning behaalt onze MindJourney een gemiddelde prestatieverbetering van meer dan 8% op de representatieve ruimtelijke redeneerbenchmark SAT, wat aantoont dat het koppelen van VLMs aan wereldmodellen voor test-time schaling een eenvoudige, plug-and-play route biedt naar robuust 3D-redeneren. Tegelijkertijd verbetert onze methode ook de test-time inferentie van VLMs die zijn getraind via reinforcement learning, wat het potentieel van onze methode onderstreept die wereldmodellen gebruikt voor test-time schaling.
English
Spatial reasoning in 3D space is central to human cognition and indispensable
for embodied tasks such as navigation and manipulation. However,
state-of-the-art vision-language models (VLMs) struggle frequently with tasks
as simple as anticipating how a scene will look after an egocentric motion:
they perceive 2D images but lack an internal model of 3D dynamics. We therefore
propose MindJourney, a test-time scaling framework that grants a VLM with this
missing capability by coupling it to a controllable world model based on video
diffusion. The VLM iteratively sketches a concise camera trajectory, while the
world model synthesizes the corresponding view at each step. The VLM then
reasons over this multi-view evidence gathered during the interactive
exploration. Without any fine-tuning, our MindJourney achieves over an average
8% performance boost on the representative spatial reasoning benchmark SAT,
showing that pairing VLMs with world models for test-time scaling offers a
simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also
improves upon the test-time inference VLMs trained through reinforcement
learning, which demonstrates the potential of our method that utilizes world
models for test-time scaling.