Lite3R: モデル非依存の効率的なフィードフォワード3D再構成フレームワーク
Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction
May 12, 2026
著者: Haoyu Zhang, Zeyu Zhang, Zedong Zhou, Yang Zhao, Hao Tang
cs.AI
要旨
Transformerベースの3次元復元は、多視点観測から形状と外観を復元するための強力なパラダイムとして登場し、困難な視覚条件下でも優れた性能を発揮している。これらのモデルがより大規模なバックボーンや高解像度の入力へと拡張されるにつれ、その効率性を改善することが実用的な展開においてますます重要となっている。しかし、現代の3次元Transformerパイプラインは、密な多視点アテンションが大きなトークン混合オーバーヘッドを生み出すこと、そして低精度実行が形状に敏感な表現を不安定化させ、奥行き、姿勢、3次元一貫性を低下させうるという、相互に関連する二つの課題に直面している。第一の課題に対処するため、我々はLite3Rを提案する。これはモデル非依存の教師-学生フレームワークであり、密なアテンションをスパース線形アテンションに置き換えることで、重要な幾何学的相互作用を保持しつつアテンションコストを削減する。第二の課題に対処するため、我々は部分的なアテンション蒸留を伴うパラメータ効率的なFP8対応量子化認識学習(FP8-aware QAT)戦略を導入する。これにより、事前学習済みバックボーンパラメータの大部分を凍結し、軽量な線形ブランチ射影層のみを訓練することで、事前学習済みの幾何学的事前知識を保持しつつ、安定した低精度展開を可能にする。さらに、BlendedMVSおよびDTU64データセット上で、VGGTとDA3-Largeという二つの代表的なバックボーンを用いてLite3Rを評価し、全体的に競争力のある復元品質を維持しながら、レイテンシ(1.7~2.0倍)とメモリ使用量(1.9~2.4倍)を大幅に削減することを示す。これらの結果は、Lite3Rが実用的なTransformerベースの3次元復元のための効果的なアルゴリズム-システム協調設計アプローチを提供することを実証している。コード: https://github.com/AIGeeksGroup/Lite3R。ウェブサイト: https://aigeeksgroup.github.io/Lite3R。
English
Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.