4RC : Reconstruction 4D par requête conditionnelle à tout moment et en tout lieu
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
February 10, 2026
papers.authors: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI
papers.abstract
Nous présentons 4RC, un cadre unifié feed-forward pour la reconstruction 4D à partir de vidéos monoculaires. Contrairement aux approches existantes qui découplent généralement le mouvement de la géométrie ou ne produisent que des attributs 4D limités, tels que des trajectoires éparses ou un flot de scène bi-vues, 4RC apprend une représentation 4D holistique qui capture conjointement la géométrie dense de la scène et la dynamique du mouvement. Au cœur de 4RC se trouve un nouveau paradigme « encoder une fois, interroger n'importe où et n'importe quand » : un transformateur encode la vidéo entière dans un espace latent spatio-temporel compact, à partir duquel un décodeur conditionnel peut interroger efficacement la géométrie 3D et le mouvement pour n'importe quelle image de requête et à n'importe quel instant cible. Pour faciliter l'apprentissage, nous représentons les attributs 4D par vue sous une forme minimalement factorisée en les décomposant en une géométrie de base et un mouvement relatif dépendant du temps. Des expériences approfondies démontrent que 4RC surpasse les méthodes antérieures et concurrentes sur un large éventail de tâches de reconstruction 4D.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.