ChatPaper.aiChatPaper

4RC: Reconstrução 4D via Consulta Condicional a Qualquer Momento e em Qualquer Lugar

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

February 10, 2026
Autores: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI

Resumo

Apresentamos o 4RC, uma estrutura unificada *feed-forward* para reconstrução 4D a partir de vídeos monoculares. Diferente das abordagens existentes, que normalmente desacoplam o movimento da geometria ou produzem atributos 4D limitados, como trajetórias esparsas ou fluxo de cena entre dois quadros, o 4RC aprende uma representação 4D holística que captura conjuntamente a geometria densa da cena e a dinâmica do movimento. Em seu núcleo, o 4RC introduz um novo paradigma de *encode-once, query-anywhere and anytime*: um *backbone* de transformer codifica o vídeo inteiro em um espaço latente espaço-temporal compacto, a partir do qual um decodificador condicional pode consultar de forma eficiente a geometria 3D e o movimento para qualquer quadro de consulta em qualquer *timestamp* de destino. Para facilitar o aprendizado, representamos os atributos 4D por visão em uma forma minimamente fatorada, decompondo-os em geometria base e movimento relativo dependente do tempo. Experimentos extensivos demonstram que o 4RC supera métodos anteriores e concorrentes em uma ampla gama de tarefas de reconstrução 4D.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.
PDF12February 24, 2026