4DThinker: Pensando con Imágenes 4D para una Comprensión Espacial Dinámica

Resumen

El razonamiento espacial dinámico a partir de vídeo monocular es fundamental para conectar la inteligencia visual con el mundo físico, pero sigue siendo un desafío para los modelos de visión y lenguaje (VLMs). Los enfoques anteriores verbalizan completamente el razonamiento espacio-temporal como texto, lo cual resulta intrínsecamente verboso e impreciso para dinámicas complejas, o dependen de módulos geométricos externos que aumentan la complejidad de inferencia sin potenciar la capacidad intrínseca del modelo. En este artículo, presentamos 4DThinker, el primer marco que permite a los VLMs "pensar en 4D" mediante imágenes mentales latentes dinámicas, es decir, simulando internamente cómo evolucionan las escenas dentro de un espacio oculto continuo. Específicamente, primero introducimos un proceso escalable y sin anotaciones para generar datos sintéticos de razonamiento 4D a partir de vídeos sin procesar. Luego, proponemos el Ajuste Fino con Imágenes Dinámicas (DIFT), que supervisa conjuntamente tokens textuales y latentes 4D para anclar el modelo en semántica visual dinámica. Sobre esta base, el Aprendizaje por Refuerzo 4D (4DRL) aborda tareas de razonamiento complejas mediante recompensas basadas en resultados, restringiendo los gradientes de política a tokens de texto para garantizar una optimización estable. Experimentos exhaustivos en múltiples benchmarks de razonamiento espacial dinámico demuestran que 4DThinker supera consistentemente a los baselines fuertes y ofrece una nueva perspectiva hacia el razonamiento 4D en VLMs. Nuestro código está disponible en https://github.com/zhangquanchen/4DThinker.

English

Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.

4DThinker: Pensando con Imágenes 4D para una Comprensión Espacial Dinámica

4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

Resumen

Support