4DThinker: Denken mit 4D-Bildern für dynamisches räumliches Verständnis
4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
May 7, 2026
Autoren: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xiang An, Bo Li, Xin Xie, ZiDong Wang, Mingze Sun, Shuang Chen, Hongyu Li, Xiaobin Hu, Ruqi Huang
cs.AI
Zusammenfassung
Dynamisches räumliches Denken aus monokularen Videos ist essenziell für die Verbindung von visueller Intelligenz und der physischen Welt, stellt jedoch nach wie vor eine Herausforderung für Sprach-Bild-Modelle (VLMs) dar. Bisherige Ansätze entweder verbalisieren räumlich-zeitliches Denken vollständig als Text, was bei komplexen Dynamiken von Natur aus weitschweifig und unpräzise ist, oder verlassen sich auf externe geometrische Module, die die Inferenzkomplexität erhöhen, ohne die intrinsischen Modellfähigkeiten zu fördern. In dieser Arbeit präsentieren wir 4DThinker, das erste Framework, das es VLMs ermöglicht, durch dynamische latente mentale Vorstellungsbilder „mit 4D zu denken“, d. h. intern zu simulieren, wie sich Szenen im kontinuierlichen verborgenen Raum entwickeln. Konkret führen wir zunächst eine skalierbare, annotationsfreie Datengenerierungspipeline ein, die 4D-Denkdaten aus Rohvideos synthetisiert. Anschließend schlagen wir Dynamic-Imagery-Fine-Tuning (DIFT) vor, das Text-Token und 4D-Latente gemeinsam überwacht, um das Modell in dynamischen visuellen Semantiken zu verankern. Darauf aufbauend adressiert 4D Reinforcement Learning (4DRL) komplexe Denkaufgaben mittels ergebnisbasierter Belohnungen weiter, wobei die Policy-Gradienten auf Text-Token beschränkt werden, um eine stabile Optimierung zu gewährleisten. Umfangreiche Experimente auf mehreren Benchmarks zum dynamischen räumlichen Denken zeigen, dass 4DThinker durchgängig starke Basislinien übertrifft und eine neue Perspektive für das 4D-Denken in VLMs eröffnet. Unser Code ist verfügbar unter https://github.com/zhangquanchen/4DThinker.
English
Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.