Long-LRM: Modelo de Reconstrução de Sequência Longa para Cobertura Ampla de Splat Gaussianos.
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
Autores: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
Resumo
Propomos o Long-LRM, um modelo de reconstrução Gaussiano 3D generalizável capaz de reconstruir uma cena grande a partir de uma longa sequência de imagens de entrada. Especificamente, nosso modelo pode processar 32 imagens de origem com resolução de 960x540 em apenas 1,3 segundos em uma única GPU A100 80G. Nossa arquitetura apresenta uma mistura dos recentes blocos Mamba2 e dos blocos transformadores clássicos, o que permitiu processar muito mais tokens do que trabalhos anteriores, aprimorado por etapas eficientes de fusão de tokens e poda Gaussiana que equilibram entre qualidade e eficiência. Ao contrário de modelos anteriores de avanço direto limitados ao processamento de 1 a 4 imagens de entrada e capazes de reconstruir apenas uma pequena parte de uma cena grande, o Long-LRM reconstrói a cena inteira em uma única etapa de avanço direto. Em conjuntos de dados de cena em grande escala como DL3DV-140 e Tanks and Temples, nosso método alcança desempenho comparável a abordagens baseadas em otimização, sendo duas ordens de magnitude mais eficiente. Página do projeto: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary