Long-LRM : Modèle de Reconstruction de Longues Séquences pour des Éclats Gaussiens à Large Couverture
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
Auteurs: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
Résumé
Nous proposons Long-LRM, un modèle de reconstruction gaussienne 3D généralisable capable de reconstruire une grande scène à partir d'une longue séquence d'images d'entrée. Plus précisément, notre modèle peut traiter 32 images sources à une résolution de 960x540 en seulement 1,3 seconde sur un seul GPU A100 80G. Notre architecture présente un mélange des récents blocs Mamba2 et des blocs transformateurs classiques qui ont permis de traiter beaucoup plus de jetons que les travaux antérieurs, améliorés par des étapes efficaces de fusion de jetons et d'élagage gaussien qui équilibrent entre qualité et efficacité. Contrairement aux modèles feed-forward précédents qui sont limités au traitement de 1 à 4 images d'entrée et ne peuvent reconstruire qu'une petite partie d'une grande scène, Long-LRM reconstruit l'ensemble de la scène en une seule étape feed-forward. Sur des ensembles de données de scènes à grande échelle tels que DL3DV-140 et Tanks and Temples, notre méthode atteint des performances comparables aux approches basées sur l'optimisation tout en étant deux ordres de grandeur plus efficace. Page du projet : https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary