ChatPaper.aiChatPaper

LRM lungo: Modello di Ricostruzione di Lunghe Sequenze per Copertura Ampia di Splat Gaussiani

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

October 16, 2024
Autori: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI

Abstract

Proponiamo Long-LRM, un modello di ricostruzione gaussiana 3D generalizzabile in grado di ricostruire una vasta scena da una lunga sequenza di immagini di input. In particolare, il nostro modello può elaborare 32 immagini di origine a risoluzione 960x540 in soli 1,3 secondi su una singola GPU A100 80G. La nostra architettura presenta una combinazione dei recenti blocchi Mamba2 e dei classici blocchi transformer che hanno permesso di elaborare molti più token rispetto ai lavori precedenti, potenziati da efficienti passaggi di unione dei token e potatura gaussiana che bilanciano tra qualità ed efficienza. A differenza dei modelli feed-forward precedenti limitati a elaborare 1-4 immagini di input e in grado di ricostruire solo una piccola porzione di una vasta scena, Long-LRM ricostruisce l'intera scena in un singolo passaggio feed-forward. Su dataset di scene su larga scala come DL3DV-140 e Tanks and Temples, il nostro metodo raggiunge prestazioni paragonabili agli approcci basati sull'ottimizzazione pur essendo due ordini di grandezza più efficiente. Pagina del progetto: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960x540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

Summary

AI-Generated Summary

PDF62November 16, 2024