4DThinker: Мышление с использованием 4D-изображений для динамического пространственного понимания

Аннотация

Динамическое пространственное рассуждение по монокулярному видео необходимо для объединения визуального интеллекта и физического мира, однако остается сложной задачей для визуально-языковых моделей (VLM). Предыдущие подходы либо вербализуют пространственно-временные рассуждения исключительно в виде текста, что по своей сути многословно и неточно для сложной динамики, либо полагаются на внешние геометрические модули, которые увеличивают сложность вывода, не развивая внутренние возможности модели. В этой статье мы представляем 4DThinker — первую структуру, позволяющую VLM «мыслить в 4D» через динамические латентные мысленные образы, то есть внутренне моделировать, как сцены развиваются в непрерывном скрытом пространстве. В частности, мы сначала представляем масштабируемый конвейер генерации данных без разметки, который синтезирует данные 4D-рассуждений из исходных видео. Затем мы предлагаем Dynamic-Imagery Fine-Tuning (DIFT), который совместно контролирует текстовые токены и 4D-латентные переменные, чтобы закрепить модель в динамической визуальной семантике. Основываясь на этом, 4D Reinforcement Learning (4DRL) решает сложные задачи рассуждения с помощью вознаграждений, основанных на результатах, ограничивая градиенты политики текстовыми токенами для обеспечения стабильной оптимизации. Обширные эксперименты на нескольких эталонах динамического пространственного рассуждения показывают, что 4DThinker стабильно превосходит сильные базовые модели и предлагает новый взгляд на 4D-рассуждения в VLM. Наш код доступен по адресу https://github.com/zhangquanchen/4DThinker.

English

Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.