Lang-LRM: Langsequenz Großrekonstruktionsmodell für breit abdeckende Gaußsche Splats
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
Autoren: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
Zusammenfassung
Wir schlagen Long-LRM vor, ein generalisierbares 3D-Gaußsches Rekonstruktionsmodell, das in der Lage ist, eine große Szene aus einer langen Sequenz von Eingabebildern wiederherzustellen. Speziell kann unser Modell 32 Quellbilder mit einer Auflösung von 960x540 verarbeiten, und das innerhalb von nur 1,3 Sekunden auf einer einzelnen A100 80G GPU. Unsere Architektur umfasst eine Mischung aus den neueren Mamba2-Blöcken und den klassischen Transformer-Blöcken, die es ermöglichten, deutlich mehr Tokens zu verarbeiten als in früheren Arbeiten. Dies wird durch effizientes Zusammenführen von Tokens und Gaußschem Beschneiden erreicht, um ein Gleichgewicht zwischen Qualität und Effizienz zu schaffen. Im Gegensatz zu früheren feedforward-Modellen, die auf die Verarbeitung von 1-4 Eingabebildern beschränkt sind und nur einen kleinen Teil einer großen Szene rekonstruieren können, rekonstruiert Long-LRM die gesamte Szene in einem einzigen feedforward-Schritt. Auf groß angelegten Szenendatensätzen wie DL3DV-140 und Tanks and Temples erreicht unsere Methode eine vergleichbare Leistung wie optimierungsbasierte Ansätze, ist jedoch um zwei Größenordnungen effizienter. Projektseite: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary