4RC: Ricostruzione 4D tramite Interrogazione Condizionata in Qualsiasi Momento e Luogo
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
February 10, 2026
Autori: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI
Abstract
Presentiamo 4RC, un framework feed-forward unificato per la ricostruzione 4D a partire da video monoculari. A differenza degli approcci esistenti, che tipicamente disaccoppiano il movimento dalla geometria o producono attributi 4D limitati come traiettorie sparse o flusso scenico tra due viste, 4RC apprende una rappresentazione 4D olistica che cattura congiuntamente la geometria densa della scena e le dinamiche del moto. Il nucleo di 4RC introduce un nuovo paradigma "codifica una volta, interroga ovunque e in qualsiasi momento": un backbone basato su transformer codifica l'intero video in uno spazio latente spazio-temporale compatto, dal quale un decoder condizionato può interrogare efficientemente la geometria 3D e il moto per qualsiasi frame di query in qualsiasi timestamp target. Per facilitare l'apprendimento, rappresentiamo gli attributi 4D per vista in una forma minimamente fattorizzata, scomponendoli in geometria di base e moto relativo dipendente dal tempo. Esperimenti estensivi dimostrano che 4RC supera i metodi precedenti e contemporanei in un'ampia gamma di compiti di ricostruzione 4D.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.