ARTDECO: Hacia una reconstrucción 3D eficiente y de alta fidelidad en tiempo real con representación estructurada de escenas
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
October 9, 2025
Autores: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI
Resumen
La reconstrucción 3D en tiempo real a partir de secuencias de imágenes monoculares es un desafío de larga data en visión por computadora, crucial para aplicaciones como real-to-sim, realidad aumentada/virtual (AR/VR) y robótica. Los métodos existentes enfrentan un importante dilema: la optimización por escena ofrece alta fidelidad pero es computacionalmente costosa, mientras que los modelos de base de inferencia directa permiten inferencia en tiempo real pero luchan con la precisión y robustez. En este trabajo, proponemos ARTDECO, un marco unificado que combina la eficiencia de los modelos de inferencia directa con la confiabilidad de las tuberías basadas en SLAM. ARTDECO utiliza modelos de base 3D para la estimación de pose y predicción de puntos, junto con un decodificador Gaussiano que transforma características multi-escala en Gaussianos 3D estructurados. Para mantener tanto la fidelidad como la eficiencia a gran escala, diseñamos una representación Gaussiana jerárquica con una estrategia de renderizado consciente del nivel de detalle (LoD), que mejora la fidelidad de renderizado mientras reduce la redundancia. Los experimentos en ocho benchmarks diversos de interiores y exteriores muestran que ARTDECO ofrece un rendimiento interactivo comparable al SLAM, una robustez similar a los sistemas de inferencia directa y una calidad de reconstrucción cercana a la optimización por escena, proporcionando un camino práctico hacia la digitalización en tiempo real de entornos del mundo real con geometría precisa y alta fidelidad visual. Explora más demostraciones en nuestra página del proyecto: https://city-super.github.io/artdeco/.
English
On-the-fly 3D reconstruction from monocular image sequences is a
long-standing challenge in computer vision, critical for applications such as
real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff:
per-scene optimization yields high fidelity but is computationally expensive,
whereas feed-forward foundation models enable real-time inference but struggle
with accuracy and robustness. In this work, we propose ARTDECO, a unified
framework that combines the efficiency of feed-forward models with the
reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose
estimation and point prediction, coupled with a Gaussian decoder that
transforms multi-scale features into structured 3D Gaussians. To sustain both
fidelity and efficiency at scale, we design a hierarchical Gaussian
representation with a LoD-aware rendering strategy, which improves rendering
fidelity while reducing redundancy. Experiments on eight diverse indoor and
outdoor benchmarks show that ARTDECO delivers interactive performance
comparable to SLAM, robustness similar to feed-forward systems, and
reconstruction quality close to per-scene optimization, providing a practical
path toward on-the-fly digitization of real-world environments with both
accurate geometry and high visual fidelity. Explore more demos on our project
page: https://city-super.github.io/artdeco/.