ChatPaper.aiChatPaper

GRM: Grande Modelo de Reconstrução Gaussiana para Reconstrução e Geração Eficiente em 3D

GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

March 21, 2024
Autores: Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, Gordon Wetzstein
cs.AI

Resumo

Apresentamos o GRM, um reconstruidor em larga escala capaz de recuperar um ativo 3D a partir de imagens de visão esparsa em aproximadamente 0,1s. O GRM é um modelo baseado em transformadores de alimentação direta que incorpora eficientemente informações de múltiplas visões para traduzir os pixels de entrada em Gaussianas alinhadas por pixel, que são desprojetadas para criar um conjunto de Gaussianas 3D densamente distribuídas que representam uma cena. Juntos, nossa arquitetura de transformadores e o uso de Gaussianas 3D desbloqueiam um framework de reconstrução escalável e eficiente. Resultados experimentais extensivos demonstram a superioridade do nosso método em relação às alternativas, tanto em qualidade de reconstrução quanto em eficiência. Também mostramos o potencial do GRM em tarefas generativas, ou seja, texto-para-3D e imagem-para-3D, ao integrá-lo com modelos de difusão de múltiplas visões existentes. O site do nosso projeto está em: https://justimyhxu.github.io/projects/grm/.
English
We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.
PDF162December 15, 2024