長LRM:広範囲のガウススプラットのための長いシーケンス大再構築モデル
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
著者: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
要旨
私たちは、Long-LRMという汎用的な3Dガウス再構築モデルを提案しています。このモデルは、長いシーケンスの入力画像から大規模なシーンを再構築することができます。具体的には、当該モデルは、960x540解像度の32枚のソース画像を1.3秒で処理でき、単一のA100 80G GPU上で動作します。当該アーキテクチャには、最近のMamba2ブロックと古典的なトランスフォーマーブロックのミックスが特徴として組み込まれており、これにより以前の研究よりも多くのトークンを処理できるようになりました。また、効率的なトークンのマージングやガウス枝刈りステップにより、品質と効率のバランスが取れています。従来の単純な順伝播モデルが1〜4枚の入力画像の処理に限定され、大規模なシーンの一部しか再構築できなかったのに対し、Long-LRMは単一の順伝播ステップで全シーンを再構築します。DL3DV-140やTanks and Templesなどの大規模なシーンデータセットにおいて、当手法は最適化ベースの手法と同等の性能を達成し、効率は2桁向上しています。プロジェクトページ:https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary