MindJourney: Scalabilità al Tempo di Test con Modelli del Mondo per il Ragionamento Spaziale
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
July 16, 2025
Autori: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI
Abstract
Il ragionamento spaziale nello spazio 3D è centrale per la cognizione umana e indispensabile per compiti incarnati come la navigazione e la manipolazione. Tuttavia, i modelli visione-linguaggio (VLMs) all'avanguardia spesso incontrano difficoltà con compiti semplici come anticipare come apparirà una scena dopo un movimento egocentrico: percepiscono immagini 2D ma mancano di un modello interno della dinamica 3D. Proponiamo quindi MindJourney, un framework di scalabilità al momento del test che conferisce a un VLM questa capacità mancante accoppiandolo a un modello di mondo controllabile basato sulla diffusione video. Il VLM disegna iterativamente una traiettoria concisa della telecamera, mentre il modello di mondo sintetizza la vista corrispondente ad ogni passo. Il VLM ragiona quindi su questa evidenza multi-vista raccolta durante l'esplorazione interattiva. Senza alcuna messa a punto, il nostro MindJourney ottiene un incremento medio di oltre l'8% delle prestazioni sul benchmark rappresentativo di ragionamento spaziale SAT, dimostrando che l'abbinamento di VLMs con modelli di mondo per la scalabilità al momento del test offre una via semplice e plug-and-play per un ragionamento 3D robusto. Nel frattempo, il nostro metodo migliora anche l'inferenza al momento del test dei VLMs addestrati attraverso l'apprendimento per rinforzo, dimostrando il potenziale del nostro metodo che utilizza modelli di mondo per la scalabilità al momento del test.
English
Spatial reasoning in 3D space is central to human cognition and indispensable
for embodied tasks such as navigation and manipulation. However,
state-of-the-art vision-language models (VLMs) struggle frequently with tasks
as simple as anticipating how a scene will look after an egocentric motion:
they perceive 2D images but lack an internal model of 3D dynamics. We therefore
propose MindJourney, a test-time scaling framework that grants a VLM with this
missing capability by coupling it to a controllable world model based on video
diffusion. The VLM iteratively sketches a concise camera trajectory, while the
world model synthesizes the corresponding view at each step. The VLM then
reasons over this multi-view evidence gathered during the interactive
exploration. Without any fine-tuning, our MindJourney achieves over an average
8% performance boost on the representative spatial reasoning benchmark SAT,
showing that pairing VLMs with world models for test-time scaling offers a
simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also
improves upon the test-time inference VLMs trained through reinforcement
learning, which demonstrates the potential of our method that utilizes world
models for test-time scaling.