ARTDECO: Rumo à Reconstrução 3D Eficiente e de Alta Fidelidade em Tempo Real com Representação Estruturada de Cenas

Resumo

A reconstrução 3D em tempo real a partir de sequências de imagens monoculares é um desafio de longa data na visão computacional, crucial para aplicações como real-to-sim, AR/VR e robótica. Os métodos existentes enfrentam um grande dilema: a otimização por cena oferece alta fidelidade, mas é computacionalmente cara, enquanto modelos de base feed-forward permitem inferência em tempo real, mas lutam com precisão e robustez. Neste trabalho, propomos o ARTDECO, um framework unificado que combina a eficiência dos modelos feed-forward com a confiabilidade de pipelines baseados em SLAM. O ARTDECO utiliza modelos de base 3D para estimativa de pose e previsão de pontos, acoplados a um decodificador Gaussiano que transforma características multi-escala em Gaussianos 3D estruturados. Para manter tanto a fidelidade quanto a eficiência em escala, projetamos uma representação Gaussiana hierárquica com uma estratégia de renderização consciente do nível de detalhe (LoD), que melhora a fidelidade de renderização enquanto reduz a redundância. Experimentos em oito benchmarks diversos, tanto internos quanto externos, mostram que o ARTDECO oferece desempenho interativo comparável ao SLAM, robustez semelhante a sistemas feed-forward e qualidade de reconstrução próxima à otimização por cena, proporcionando um caminho prático para a digitalização em tempo real de ambientes do mundo real com geometria precisa e alta fidelidade visual. Explore mais demonstrações em nossa página do projeto: https://city-super.github.io/artdeco/.

English

On-the-fly 3D reconstruction from monocular image sequences is a long-standing challenge in computer vision, critical for applications such as real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff: per-scene optimization yields high fidelity but is computationally expensive, whereas feed-forward foundation models enable real-time inference but struggle with accuracy and robustness. In this work, we propose ARTDECO, a unified framework that combines the efficiency of feed-forward models with the reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose estimation and point prediction, coupled with a Gaussian decoder that transforms multi-scale features into structured 3D Gaussians. To sustain both fidelity and efficiency at scale, we design a hierarchical Gaussian representation with a LoD-aware rendering strategy, which improves rendering fidelity while reducing redundancy. Experiments on eight diverse indoor and outdoor benchmarks show that ARTDECO delivers interactive performance comparable to SLAM, robustness similar to feed-forward systems, and reconstruction quality close to per-scene optimization, providing a practical path toward on-the-fly digitization of real-world environments with both accurate geometry and high visual fidelity. Explore more demos on our project page: https://city-super.github.io/artdeco/.

ARTDECO: Rumo à Reconstrução 3D Eficiente e de Alta Fidelidade em Tempo Real com Representação Estruturada de Cenas

ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

Resumo

Support