STream3R: 因果的Transformerを用いたスケーラブルな逐次3D再構成
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
著者: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
要旨
本論文では、3D再構成における新たなアプローチであるSTream3Rを提案します。STream3Rは、ポイントマップ予測をデコーダのみのTransformer問題として再定式化します。既存のマルチビュー再構成の最先端手法は、高コストなグローバル最適化に依存するか、シーケンス長に対してスケーリングが不十分な単純なメモリ機構に頼っています。これに対し、STream3Rは、現代の言語モデリングの進展に着想を得た因果的注意機構を用いて、画像シーケンスを効率的に処理するストリーミングフレームワークを導入します。大規模な3Dデータセットから幾何学的な事前知識を学習することで、STream3Rは多様で困難なシナリオ、特に従来の手法がしばしば失敗する動的シーンにおいても良好に汎化します。広範な実験により、本手法が静的および動的シーンのベンチマークにおいて、従来の手法を一貫して上回ることが示されています。さらに、STream3RはLLMスタイルのトレーニングインフラストラクチャと本質的に互換性があり、様々な下流の3Dタスクに対する効率的な大規模事前学習と微調整を可能にします。我々の結果は、オンライン3D知覚における因果的Transformerモデルの可能性を強調し、ストリーミング環境におけるリアルタイム3D理解への道を開くものです。詳細はプロジェクトページ(https://nirvanalan.github.io/projects/stream3r)をご覧ください。
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.