MindJourney : Mise à l'échelle en temps de test avec des modèles du monde pour le raisonnement spatial
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
July 16, 2025
papers.authors: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI
papers.abstract
Le raisonnement spatial en 3D est central dans la cognition humaine et indispensable pour des tâches incarnées telles que la navigation et la manipulation. Cependant, les modèles vision-langage (VLMs) de pointe rencontrent fréquemment des difficultés avec des tâches aussi simples que d'anticiper l'apparence d'une scène après un mouvement égocentrique : ils perçoivent des images en 2D mais manquent d'un modèle interne des dynamiques en 3D. Nous proposons donc MindJourney, un cadre de mise à l'échelle au moment du test qui confère à un VLM cette capacité manquante en le couplant à un modèle de monde contrôlable basé sur la diffusion vidéo. Le VLM esquisse itérativement une trajectoire de caméra concise, tandis que le modèle de monde synthétise la vue correspondante à chaque étape. Le VLM raisonne ensuite sur cette preuve multi-vue recueillie lors de l'exploration interactive. Sans aucun ajustement fin, notre MindJourney obtient une amélioration moyenne de plus de 8 % sur le benchmark représentatif de raisonnement spatial SAT, montrant que l'association de VLMs avec des modèles de monde pour la mise à l'échelle au moment du test offre une voie simple et plug-and-play vers un raisonnement 3D robuste. Par ailleurs, notre méthode améliore également l'inférence au moment du test des VLMs entraînés par apprentissage par renforcement, ce qui démontre le potentiel de notre méthode utilisant des modèles de monde pour la mise à l'échelle au moment du test.
English
Spatial reasoning in 3D space is central to human cognition and indispensable
for embodied tasks such as navigation and manipulation. However,
state-of-the-art vision-language models (VLMs) struggle frequently with tasks
as simple as anticipating how a scene will look after an egocentric motion:
they perceive 2D images but lack an internal model of 3D dynamics. We therefore
propose MindJourney, a test-time scaling framework that grants a VLM with this
missing capability by coupling it to a controllable world model based on video
diffusion. The VLM iteratively sketches a concise camera trajectory, while the
world model synthesizes the corresponding view at each step. The VLM then
reasons over this multi-view evidence gathered during the interactive
exploration. Without any fine-tuning, our MindJourney achieves over an average
8% performance boost on the representative spatial reasoning benchmark SAT,
showing that pairing VLMs with world models for test-time scaling offers a
simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also
improves upon the test-time inference VLMs trained through reinforcement
learning, which demonstrates the potential of our method that utilizes world
models for test-time scaling.