ARTDECO: К эффективной и высокоточной реконструкции 3D-сцен в реальном времени с использованием структурированного представления сцены
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
October 9, 2025
Авторы: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI
Аннотация
Реконструкция 3D-сцен на лету из монохромных последовательностей изображений представляет собой давнюю задачу в области компьютерного зрения, имеющую критическое значение для таких приложений, как перенос реальности в симуляции (real-to-sim), дополненная и виртуальная реальность (AR/VR), а также робототехника. Существующие методы сталкиваются с серьезным компромиссом: оптимизация для каждой сцены обеспечивает высокую точность, но требует значительных вычислительных ресурсов, тогда как модели прямого прохода (feed-forward) позволяют выполнять вывод в реальном времени, но страдают от недостаточной точности и устойчивости. В данной работе мы представляем ARTDECO — унифицированную платформу, которая сочетает эффективность моделей прямого прохода с надежностью подходов на основе SLAM. ARTDECO использует 3D-модели для оценки позы и предсказания точек, а также гауссовский декодер, преобразующий многоуровневые признаки в структурированные 3D-гауссовы распределения. Для поддержания как точности, так и эффективности в масштабе мы разработали иерархическое представление гауссовских распределений с учетом уровня детализации (LoD-aware), что повышает качество рендеринга и снижает избыточность. Эксперименты на восьми разнообразных наборах данных для помещений и открытых пространств показывают, что ARTDECO обеспечивает интерактивную производительность, сравнимую с SLAM, устойчивость, близкую к моделям прямого прохода, и качество реконструкции, приближающееся к оптимизации для каждой сцены, предлагая практический путь к оцифровке реальных сред в реальном времени с точной геометрией и высокой визуальной достоверностью. Дополнительные демонстрации доступны на странице проекта: https://city-super.github.io/artdeco/.
English
On-the-fly 3D reconstruction from monocular image sequences is a
long-standing challenge in computer vision, critical for applications such as
real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff:
per-scene optimization yields high fidelity but is computationally expensive,
whereas feed-forward foundation models enable real-time inference but struggle
with accuracy and robustness. In this work, we propose ARTDECO, a unified
framework that combines the efficiency of feed-forward models with the
reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose
estimation and point prediction, coupled with a Gaussian decoder that
transforms multi-scale features into structured 3D Gaussians. To sustain both
fidelity and efficiency at scale, we design a hierarchical Gaussian
representation with a LoD-aware rendering strategy, which improves rendering
fidelity while reducing redundancy. Experiments on eight diverse indoor and
outdoor benchmarks show that ARTDECO delivers interactive performance
comparable to SLAM, robustness similar to feed-forward systems, and
reconstruction quality close to per-scene optimization, providing a practical
path toward on-the-fly digitization of real-world environments with both
accurate geometry and high visual fidelity. Explore more demos on our project
page: https://city-super.github.io/artdeco/.