ChatPaper.aiChatPaper

Long-LRM : Modèle de Reconstruction de Longues Séquences pour des Éclats Gaussiens à Large Couverture

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

October 16, 2024
Auteurs: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI

Résumé

Nous proposons Long-LRM, un modèle de reconstruction gaussienne 3D généralisable capable de reconstruire une grande scène à partir d'une longue séquence d'images d'entrée. Plus précisément, notre modèle peut traiter 32 images sources à une résolution de 960x540 en seulement 1,3 seconde sur un seul GPU A100 80G. Notre architecture présente un mélange des récents blocs Mamba2 et des blocs transformateurs classiques qui ont permis de traiter beaucoup plus de jetons que les travaux antérieurs, améliorés par des étapes efficaces de fusion de jetons et d'élagage gaussien qui équilibrent entre qualité et efficacité. Contrairement aux modèles feed-forward précédents qui sont limités au traitement de 1 à 4 images d'entrée et ne peuvent reconstruire qu'une petite partie d'une grande scène, Long-LRM reconstruit l'ensemble de la scène en une seule étape feed-forward. Sur des ensembles de données de scènes à grande échelle tels que DL3DV-140 et Tanks and Temples, notre méthode atteint des performances comparables aux approches basées sur l'optimisation tout en étant deux ordres de grandeur plus efficace. Page du projet : https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960x540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

Summary

AI-Generated Summary

PDF62November 16, 2024