4DThinker : Penser avec l'imagerie 4D pour une compréhension spatiale dynamique

Résumé

Le raisonnement spatial dynamique à partir de vidéos monoculaires est essentiel pour faire le lien entre l'intelligence visuelle et le monde physique, mais il reste difficile pour les modèles de langage visuel (VLMs). Les approches précédentes soit verbalisent entièrement le raisonnement spatio-temporel sous forme de texte, ce qui est intrinsèquement verbeux et imprécis pour les dynamiques complexes, soit s'appuient sur des modules géométriques externes qui augmentent la complexité de l'inférence sans développer la capacité intrinsèque du modèle. Dans cet article, nous présentons 4DThinker, le premier cadre permettant aux VLMs de « penser en 4D » via une imagerie mentale latente dynamique, c'est-à-dire de simuler en interne l'évolution des scènes dans l'espace caché continu. Plus précisément, nous introduisons d'abord un pipeline de génération de données évolutif et sans annotation qui synthétise des données de raisonnement 4D à partir de vidéos brutes. Nous proposons ensuite l'Ajustement Fin par Imagerie Dynamique (DIFT), qui supervise conjointement les tokens textuels et les latentes 4D afin d'ancrer le modèle dans la sémantique visuelle dynamique. Sur cette base, l'Apprentissage par Renforcement 4D (4DRL) aborde des tâches de raisonnement complexes via des récompenses basées sur les résultats, en restreignant les gradients de politique aux tokens textuels pour garantir une optimisation stable. Des expériences approfondies sur plusieurs benchmarks de raisonnement spatial dynamique montrent que 4DThinker surpasse systématiquement les bases de référence solides et offre une nouvelle perspective sur le raisonnement 4D dans les VLMs. Notre code est disponible à l'adresse https://github.com/zhangquanchen/4DThinker.

English

Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.

4DThinker : Penser avec l'imagerie 4D pour une compréhension spatiale dynamique

4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

Résumé

Support