ARTDECO : Vers une reconstruction 3D efficace et haute fidélité en temps réel avec représentation structurée de la scène
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
October 9, 2025
papers.authors: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI
papers.abstract
La reconstruction 3D en temps réel à partir de séquences d'images monoculaires constitue un défi de longue date en vision par ordinateur, crucial pour des applications telles que la conversion réel-vers-simulé, la réalité augmentée/virtuelle (AR/VR) et la robotique. Les méthodes existantes se heurtent à un compromis majeur : l'optimisation par scène offre une haute fidélité mais est coûteuse en calcul, tandis que les modèles de base à propagation directe permettent une inférence en temps réel mais peinent à atteindre précision et robustesse. Dans ce travail, nous proposons ARTDECO, un cadre unifié qui combine l'efficacité des modèles à propagation directe avec la fiabilité des pipelines basés sur SLAM. ARTDECO utilise des modèles de base 3D pour l'estimation de pose et la prédiction de points, couplés à un décodeur gaussien qui transforme des caractéristiques multi-échelles en Gaussiennes 3D structurées. Pour maintenir à la fois fidélité et efficacité à grande échelle, nous concevons une représentation gaussienne hiérarchique avec une stratégie de rendu adaptée aux niveaux de détail (LoD), améliorant ainsi la fidélité du rendu tout en réduisant la redondance. Les expériences menées sur huit benchmarks variés, en intérieur et extérieur, montrent qu'ARTDECO offre des performances interactives comparables à SLAM, une robustesse similaire aux systèmes à propagation directe, et une qualité de reconstruction proche de l'optimisation par scène, ouvrant une voie pratique vers la numérisation en temps réel d'environnements réels avec une géométrie précise et une haute fidélité visuelle. Découvrez plus de démonstrations sur notre page de projet : https://city-super.github.io/artdeco/.
English
On-the-fly 3D reconstruction from monocular image sequences is a
long-standing challenge in computer vision, critical for applications such as
real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff:
per-scene optimization yields high fidelity but is computationally expensive,
whereas feed-forward foundation models enable real-time inference but struggle
with accuracy and robustness. In this work, we propose ARTDECO, a unified
framework that combines the efficiency of feed-forward models with the
reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose
estimation and point prediction, coupled with a Gaussian decoder that
transforms multi-scale features into structured 3D Gaussians. To sustain both
fidelity and efficiency at scale, we design a hierarchical Gaussian
representation with a LoD-aware rendering strategy, which improves rendering
fidelity while reducing redundancy. Experiments on eight diverse indoor and
outdoor benchmarks show that ARTDECO delivers interactive performance
comparable to SLAM, robustness similar to feed-forward systems, and
reconstruction quality close to per-scene optimization, providing a practical
path toward on-the-fly digitization of real-world environments with both
accurate geometry and high visual fidelity. Explore more demos on our project
page: https://city-super.github.io/artdeco/.