ARTDECO: Verso una Ricostruzione 3D Efficiente e ad Alta Fedeltà in Tempo Reale con Rappresentazione Strutturata della Scena

Abstract

La ricostruzione 3D in tempo reale da sequenze di immagini monoculari rappresenta una sfida di lunga data nel campo della visione artificiale, cruciale per applicazioni come real-to-sim, AR/VR e robotica. I metodi esistenti devono affrontare un importante compromesso: l'ottimizzazione per singola scena offre un'elevata fedeltà ma è computazionalmente costosa, mentre i modelli di base feed-forward consentono inferenze in tempo reale ma faticano a garantire accuratezza e robustezza. In questo lavoro, proponiamo ARTDECO, un framework unificato che combina l'efficienza dei modelli feed-forward con l'affidabilità delle pipeline basate su SLAM. ARTDECO utilizza modelli di base 3D per la stima della posa e la previsione dei punti, abbinati a un decodificatore Gaussiano che trasforma caratteristiche multi-scala in Gaussiane 3D strutturate. Per mantenere sia la fedeltà che l'efficienza su larga scala, progettiamo una rappresentazione Gaussiana gerarchica con una strategia di rendering consapevole del livello di dettaglio (LoD), che migliora la fedeltà del rendering riducendo la ridondanza. Esperimenti su otto benchmark diversi, sia interni che esterni, dimostrano che ARTDECO offre prestazioni interattive paragonabili a SLAM, una robustezza simile ai sistemi feed-forward e una qualità di ricostruzione vicina all'ottimizzazione per singola scena, fornendo un percorso pratico verso la digitalizzazione in tempo reale di ambienti reali con geometria accurata e alta fedeltà visiva. Esplora ulteriori demo sulla nostra pagina del progetto: https://city-super.github.io/artdeco/.

English

On-the-fly 3D reconstruction from monocular image sequences is a long-standing challenge in computer vision, critical for applications such as real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff: per-scene optimization yields high fidelity but is computationally expensive, whereas feed-forward foundation models enable real-time inference but struggle with accuracy and robustness. In this work, we propose ARTDECO, a unified framework that combines the efficiency of feed-forward models with the reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose estimation and point prediction, coupled with a Gaussian decoder that transforms multi-scale features into structured 3D Gaussians. To sustain both fidelity and efficiency at scale, we design a hierarchical Gaussian representation with a LoD-aware rendering strategy, which improves rendering fidelity while reducing redundancy. Experiments on eight diverse indoor and outdoor benchmarks show that ARTDECO delivers interactive performance comparable to SLAM, robustness similar to feed-forward systems, and reconstruction quality close to per-scene optimization, providing a practical path toward on-the-fly digitization of real-world environments with both accurate geometry and high visual fidelity. Explore more demos on our project page: https://city-super.github.io/artdeco/.

ARTDECO: Verso una Ricostruzione 3D Efficiente e ad Alta Fedeltà in Tempo Reale con Rappresentazione Strutturata della Scena

ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

Abstract

Support