ChatPaper.aiChatPaper

ARTDECO: Auf dem Weg zu effizienter und hochauflösender Echtzeit-3D-Rekonstruktion mit strukturierter Szenendarstellung

ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

October 9, 2025
papers.authors: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI

papers.abstract

Die On-the-fly-3D-Rekonstruktion aus monokularen Bildsequenzen ist eine langjährige Herausforderung in der Computer Vision, die für Anwendungen wie Real-to-Sim, AR/VR und Robotik von entscheidender Bedeutung ist. Bestehende Methoden stehen vor einem grundlegenden Kompromiss: Per-Scene-Optimierung liefert hohe Detailtreue, ist jedoch rechenintensiv, während Feed-Forward-Foundation-Modelle Echtzeit-Inferenz ermöglichen, aber mit Genauigkeit und Robustheit kämpfen. In dieser Arbeit stellen wir ARTDECO vor, ein einheitliches Framework, das die Effizienz von Feed-Forward-Modellen mit der Zuverlässigkeit von SLAM-basierten Pipelines kombiniert. ARTDECO verwendet 3D-Foundation-Modelle für die Pose-Schätzung und Punktvorhersage, gekoppelt mit einem Gaußschen Decoder, der mehrstufige Merkmale in strukturierte 3D-Gaußsche Funktionen transformiert. Um sowohl Detailtreue als auch Effizienz im großen Maßstab zu gewährleisten, entwerfen wir eine hierarchische Gaußsche Darstellung mit einer LoD-bewussten Rendering-Strategie, die die Rendering-Qualität verbessert und Redundanz reduziert. Experimente auf acht verschiedenen Indoor- und Outdoor-Benchmarks zeigen, dass ARTDECO interaktive Leistung vergleichbar mit SLAM, Robustheit ähnlich wie Feed-Forward-Systeme und Rekonstruktionsqualität nahe an Per-Scene-Optimierung bietet. Dies eröffnet einen praktischen Weg zur On-the-fly-Digitalisierung realer Umgebungen mit präziser Geometrie und hoher visueller Detailtreue. Weitere Demos finden Sie auf unserer Projektseite: https://city-super.github.io/artdeco/.
English
On-the-fly 3D reconstruction from monocular image sequences is a long-standing challenge in computer vision, critical for applications such as real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff: per-scene optimization yields high fidelity but is computationally expensive, whereas feed-forward foundation models enable real-time inference but struggle with accuracy and robustness. In this work, we propose ARTDECO, a unified framework that combines the efficiency of feed-forward models with the reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose estimation and point prediction, coupled with a Gaussian decoder that transforms multi-scale features into structured 3D Gaussians. To sustain both fidelity and efficiency at scale, we design a hierarchical Gaussian representation with a LoD-aware rendering strategy, which improves rendering fidelity while reducing redundancy. Experiments on eight diverse indoor and outdoor benchmarks show that ARTDECO delivers interactive performance comparable to SLAM, robustness similar to feed-forward systems, and reconstruction quality close to per-scene optimization, providing a practical path toward on-the-fly digitization of real-world environments with both accurate geometry and high visual fidelity. Explore more demos on our project page: https://city-super.github.io/artdeco/.
PDF252October 10, 2025