4DThinker: Denken met 4D-beelden voor dynamisch ruimtelijk begrip

Samenvatting

Dynamisch ruimtelijk redeneren op basis van monoculair video is essentieel voor het overbruggen van visuele intelligentie en de fysieke wereld, maar blijft uitdagend voor visie-taalmodelen (VTM's). Eerdere benaderingen verbaliseren ruimtelijk-temporeel redeneren geheel als tekst, wat inherent omslachtig en onnauwkeurig is voor complexe dynamiek, of vertrouwen op externe geometrische modules die de inferentiecomplexiteit verhogen zonder het intrinsieke modelvermogen te bevorderen. In dit artikel presenteren we 4DThinker, het eerste raamwerk dat VTM's in staat stelt om 'met 4D te denken' via dynamische latente mentale beeldvorming, d.w.z. intern simuleren hoe scènes evolueren in de continue verborgen ruimte. Specifiek introduceren we eerst een schaalbare, annotatievrije datageneratiepijplijn die 4D-redeneergegevens synthetiseert uit ruwe video's. Vervolgens stellen we Dynamic-Imagery Fine-Tuning (DIFT) voor, dat zowel teksttokens als 4D-latenten gezamenlijk supervisort om het model te verankeren in dynamische visuele semantiek. Hierop voortbouwend pakt 4D Reinforcement Learning (4DRL) verdere complexe redeneertaken aan via op uitkomsten gebaseerde beloningen, waarbij beleidsgradiënten worden beperkt tot teksttokens om stabiele optimalisatie te waarborgen. Uitgebreide experimenten op meerdere dynamische ruimtelijke redeneringsbenchmarks tonen aan dat 4DThinker consequent beter presteert dan sterke basislijnen en een nieuw perspectief biedt voor 4D-redeneren in VTM's. Onze code is beschikbaar op https://github.com/zhangquanchen/4DThinker.

English

Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.