Lang-LRM: Langsequenz Großrekonstruktionsmodell für breit abdeckende Gaußsche Splats

papers.abstract

Wir schlagen Long-LRM vor, ein generalisierbares 3D-Gaußsches Rekonstruktionsmodell, das in der Lage ist, eine große Szene aus einer langen Sequenz von Eingabebildern wiederherzustellen. Speziell kann unser Modell 32 Quellbilder mit einer Auflösung von 960x540 verarbeiten, und das innerhalb von nur 1,3 Sekunden auf einer einzelnen A100 80G GPU. Unsere Architektur umfasst eine Mischung aus den neueren Mamba2-Blöcken und den klassischen Transformer-Blöcken, die es ermöglichten, deutlich mehr Tokens zu verarbeiten als in früheren Arbeiten. Dies wird durch effizientes Zusammenführen von Tokens und Gaußschem Beschneiden erreicht, um ein Gleichgewicht zwischen Qualität und Effizienz zu schaffen. Im Gegensatz zu früheren feedforward-Modellen, die auf die Verarbeitung von 1-4 Eingabebildern beschränkt sind und nur einen kleinen Teil einer großen Szene rekonstruieren können, rekonstruiert Long-LRM die gesamte Szene in einem einzigen feedforward-Schritt. Auf groß angelegten Szenendatensätzen wie DL3DV-140 und Tanks and Temples erreicht unsere Methode eine vergleichbare Leistung wie optimierungsbasierte Ansätze, ist jedoch um zwei Größenordnungen effizienter. Projektseite: https://arthurhero.github.io/projects/llrm

English

We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960x540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

Lang-LRM: Langsequenz Großrekonstruktionsmodell für breit abdeckende Gaußsche Splats

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

papers.abstract

Support