Модель длинной последовательности большой реконструкции для широкопокрытия гауссовых пятен
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
October 16, 2024
Авторы: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI
Аннотация
Мы предлагаем Long-LRM, обобщенную модель трехмерной гауссовой реконструкции, способную восстанавливать большую сцену из длинной последовательности входных изображений. Конкретно, наша модель может обрабатывать 32 исходных изображения разрешением 960x540 за всего лишь 1.3 секунды на одном графическом процессоре A100 80G. Наша архитектура включает в себя смесь недавних блоков Mamba2 и классических блоков трансформера, что позволило обрабатывать гораздо больше токенов, чем в предыдущих работах, улучшенных эффективным объединением токенов и этапами обрезки гауссова распределения, которые обеспечивают баланс между качеством и эффективностью. В отличие от предыдущих моделей прямого распространения, ограниченных обработкой 1-4 входных изображений и способных восстанавливать лишь небольшую часть большой сцены, Long-LRM восстанавливает всю сцену за один шаг прямого распространения. На крупных наборах данных сцен, таких как DL3DV-140 и Tanks and Temples, наш метод достигает производительности, сравнимой с подходами на основе оптимизации, при этом он эффективнее на два порядка. Страница проекта: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is
capable of reconstructing a large scene from a long sequence of input images.
Specifically, our model can process 32 source images at 960x540 resolution
within only 1.3 seconds on a single A100 80G GPU. Our architecture features a
mixture of the recent Mamba2 blocks and the classical transformer blocks which
allowed many more tokens to be processed than prior work, enhanced by efficient
token merging and Gaussian pruning steps that balance between quality and
efficiency. Unlike previous feed-forward models that are limited to processing
1~4 input images and can only reconstruct a small portion of a large scene,
Long-LRM reconstructs the entire scene in a single feed-forward step. On
large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method
achieves performance comparable to optimization-based approaches while being
two orders of magnitude more efficient. Project page:
https://arthurhero.github.io/projects/llrmSummary
AI-Generated Summary