4RC: Reconstrucción 4D mediante Consulta Condicional en Cualquier Momento y Lugar
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
February 10, 2026
Autores: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI
Resumen
Presentamos 4RC, un marco unificado de propagación hacia adelante para la reconstrucción 4D a partir de vídeos monoculares. A diferencia de los enfoques existentes, que normalmente desacoplan el movimiento de la geometría o producen atributos 4D limitados, como trayectorias dispersas o flujo de escena entre dos vistas, 4RC aprende una representación 4D holística que captura conjuntamente la geometría densa de la escena y la dinámica del movimiento. En su núcleo, 4RC introduce un novedoso paradigma de codificar-una-vez, consultar-en-cualquier-parte-y-en-cualquier-momento: una arquitectura transformer codifica el vídeo completo en un espacio latente espacio-temporal compacto, a partir del cual un decodificador condicional puede consultar eficientemente la geometría 3D y el movimiento para cualquier fotograma de consulta en cualquier marca de tiempo objetivo. Para facilitar el aprendizaje, representamos los atributos 4D por vista en una forma mínimamente factorizada, descomponiéndolos en una geometría base y un movimiento relativo dependiente del tiempo. Experimentos exhaustivos demuestran que 4RC supera a métodos anteriores y concurrentes en una amplia gama de tareas de reconstrucción 4D.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.