ARTDECO: Naar efficiënte en hoogwaardige real-time 3D-reconstructie met gestructureerde scèneweergave
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
October 9, 2025
Auteurs: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI
Samenvatting
On-the-fly 3D-reconstructie uit monoscopische beeldsequenties is een lang bestaande uitdaging in computervisie, cruciaal voor toepassingen zoals real-to-sim, AR/VR en robotica. Bestaande methoden kampen met een belangrijke afweging: per-scene optimalisatie levert hoge nauwkeurigheid op maar is rekenkundig duur, terwijl feed-forward foundationmodellen real-time inferentie mogelijk maken maar moeite hebben met nauwkeurigheid en robuustheid. In dit werk stellen we ARTDECO voor, een geïntegreerd raamwerk dat de efficiëntie van feed-forward modellen combineert met de betrouwbaarheid van SLAM-gebaseerde pijplijnen. ARTDECO gebruikt 3D foundationmodellen voor pose-estimatie en puntvoorspelling, gekoppeld aan een Gaussische decoder die multi-schaal kenmerken omzet in gestructureerde 3D Gaussians. Om zowel nauwkeurigheid als efficiëntie op schaal te behouden, ontwerpen we een hiërarchische Gaussische representatie met een LoD-bewuste renderingstrategie, die de renderingnauwkeurigheid verbetert en redundantie vermindert. Experimenten op acht diverse indoor- en outdoor benchmarks tonen aan dat ARTDECO interactieve prestaties levert die vergelijkbaar zijn met SLAM, robuustheid die lijkt op feed-forward systemen, en reconstructiekwaliteit die dicht in de buurt komt van per-scene optimalisatie, wat een praktische weg biedt naar on-the-fly digitalisering van real-world omgevingen met zowel nauwkeurige geometrie als hoge visuele kwaliteit. Bekijk meer demo's op onze projectpagina: https://city-super.github.io/artdeco/.
English
On-the-fly 3D reconstruction from monocular image sequences is a
long-standing challenge in computer vision, critical for applications such as
real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff:
per-scene optimization yields high fidelity but is computationally expensive,
whereas feed-forward foundation models enable real-time inference but struggle
with accuracy and robustness. In this work, we propose ARTDECO, a unified
framework that combines the efficiency of feed-forward models with the
reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose
estimation and point prediction, coupled with a Gaussian decoder that
transforms multi-scale features into structured 3D Gaussians. To sustain both
fidelity and efficiency at scale, we design a hierarchical Gaussian
representation with a LoD-aware rendering strategy, which improves rendering
fidelity while reducing redundancy. Experiments on eight diverse indoor and
outdoor benchmarks show that ARTDECO delivers interactive performance
comparable to SLAM, robustness similar to feed-forward systems, and
reconstruction quality close to per-scene optimization, providing a practical
path toward on-the-fly digitization of real-world environments with both
accurate geometry and high visual fidelity. Explore more demos on our project
page: https://city-super.github.io/artdeco/.