ARTDECO: 構造化されたシーン表現による効率的かつ高精細なリアルタイム3D再構築に向けて
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
October 9, 2025
著者: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang
cs.AI
要旨
単眼画像シーケンスからのオンザフライ3D再構成は、コンピュータビジョンにおける長年の課題であり、リアル・トゥ・シミュレーション、AR/VR、ロボティクスなどのアプリケーションにおいて重要です。既存の手法は大きなトレードオフに直面しています:シーンごとの最適化は高忠実度を実現しますが計算コストが高く、フォワード型の基盤モデルはリアルタイム推論を可能にしますが精度とロバスト性に課題があります。本研究では、ARTDECOを提案します。これは、フォワード型モデルの効率性とSLAMベースのパイプラインの信頼性を統合したフレームワークです。ARTDECOは、ポーズ推定とポイント予測に3D基盤モデルを使用し、マルチスケール特徴を構造化された3Dガウシアンに変換するガウシアンデコーダを組み合わせています。スケールにおいて忠実度と効率性を両立させるために、LoDを考慮したレンダリング戦略を備えた階層型ガウシアン表現を設計し、レンダリングの忠実度を向上させながら冗長性を削減します。8つの多様な屋内および屋外ベンチマークでの実験により、ARTDECOはSLAMに匹敵するインタラクティブな性能、フォワード型システムに類似したロバスト性、シーンごとの最適化に近い再構成品質を提供し、正確なジオメトリと高い視覚的忠実度を兼ね備えた現実世界環境のオンザフライデジタル化への実用的な道筋を示します。詳細なデモはプロジェクトページ(https://city-super.github.io/artdeco/)でご覧ください。
English
On-the-fly 3D reconstruction from monocular image sequences is a
long-standing challenge in computer vision, critical for applications such as
real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff:
per-scene optimization yields high fidelity but is computationally expensive,
whereas feed-forward foundation models enable real-time inference but struggle
with accuracy and robustness. In this work, we propose ARTDECO, a unified
framework that combines the efficiency of feed-forward models with the
reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose
estimation and point prediction, coupled with a Gaussian decoder that
transforms multi-scale features into structured 3D Gaussians. To sustain both
fidelity and efficiency at scale, we design a hierarchical Gaussian
representation with a LoD-aware rendering strategy, which improves rendering
fidelity while reducing redundancy. Experiments on eight diverse indoor and
outdoor benchmarks show that ARTDECO delivers interactive performance
comparable to SLAM, robustness similar to feed-forward systems, and
reconstruction quality close to per-scene optimization, providing a practical
path toward on-the-fly digitization of real-world environments with both
accurate geometry and high visual fidelity. Explore more demos on our project
page: https://city-super.github.io/artdeco/.