Modelo de Reconstrucción de Secuencias Largas (Long-LRM) para la Cobertura Amplia de Salpicaduras Gaussianas.
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
Autores: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
Resumen
Proponemos Long-LRM, un modelo de reconstrucción gaussiano 3D generalizable capaz de reconstruir una escena grande a partir de una larga secuencia de imágenes de entrada. Específicamente, nuestro modelo puede procesar 32 imágenes fuente a una resolución de 960x540 en tan solo 1.3 segundos en una sola GPU A100 80G. Nuestra arquitectura presenta una combinación de los bloques Mamba2 recientes y los bloques transformadores clásicos, lo que permitió procesar muchos más tokens que trabajos anteriores, mejorado por fusiones eficientes de tokens y pasos de poda gaussiana que equilibran entre calidad y eficiencia. A diferencia de modelos anteriores de avance directo limitados a procesar 1-4 imágenes de entrada y solo pueden reconstruir una pequeña parte de una escena grande, Long-LRM reconstruye toda la escena en un solo paso de avance directo. En conjuntos de datos de escenas a gran escala como DL3DV-140 y Tanks and Temples, nuestro método logra un rendimiento comparable a enfoques basados en optimización siendo dos órdenes de magnitud más eficiente. Página del proyecto: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary