4RC: 4D-реконструкция с помощью условного запроса в любое время и в любом месте
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
February 10, 2026
Авторы: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI
Аннотация
Мы представляем 4RC — унифицированную прямую модель для 4D-реконструкции по монокулярным видео. В отличие от существующих подходов, которые обычно разделяют движение и геометрию или выдают ограниченные 4D-атрибуты, такие как разреженные траектории или сценовый поток между двумя кадрами, 4RC изучает целостное 4D-представление, совместно охватывающее плотную геометрию сцены и динамику движения. В основе 4RC лежит новая парадигма «закодировать один раз — запрашивать где угодно и когда угодно»: трансформерный backbone кодирует всё видео в компактное пространственно-временное латентное пространство, из которого условный декодер может эффективно извлекать 3D-геометрию и движение для любого запрашиваемого кадра в произвольный момент времени. Для облегчения обучения мы представляем 4D-атрибуты для каждого кадра в минимально факторизованной форме, декомпозируя их на базовую геометрию и зависящее от времени относительное движение. Многочисленные эксперименты показывают, что 4RC превосходит предыдущие и современные методы в широком спектре задач 4D-реконструкции.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.