GaussianObject: Apenas Quatro Imagens para Obter um Objeto 3D de Alta Qualidade com Gaussian Splatting
GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting
February 15, 2024
Autores: Chen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian
cs.AI
Resumo
Reconstruir e renderizar objetos 3D a partir de visões altamente esparsas é de extrema importância para promover aplicações de técnicas de visão 3D e melhorar a experiência do usuário. No entanto, imagens de visões esparsas contêm informações 3D muito limitadas, levando a dois desafios significativos: 1) Dificuldade em estabelecer consistência multivista, pois as imagens disponíveis para correspondência são muito poucas; 2) Informações parcialmente omitidas ou altamente comprimidas do objeto, devido à cobertura insuficiente das visões. Para enfrentar esses desafios, propomos o GaussianObject, um framework para representar e renderizar o objeto 3D com splatting Gaussiano, que alcança alta qualidade de renderização com apenas 4 imagens de entrada. Primeiro, introduzimos técnicas de visual hull e eliminação de floaters, que injetam explicitamente prioridades estruturais no processo inicial de otimização para ajudar a construir consistência multivista, resultando em uma representação Gaussiana 3D inicial. Em seguida, construímos um modelo de reparo Gaussiano baseado em modelos de difusão para complementar as informações omitidas do objeto, onde os Gaussianos são ainda mais refinados. Projetamos uma estratégia de autogeração para obter pares de imagens para treinar o modelo de reparo. Nosso GaussianObject é avaliado em vários conjuntos de dados desafiadores, incluindo MipNeRF360, OmniObject3D e OpenIllumination, alcançando resultados de reconstrução robustos a partir de apenas 4 visões e superando significativamente os métodos state-of-the-art anteriores.
English
Reconstructing and rendering 3D objects from highly sparse views is of
critical importance for promoting applications of 3D vision techniques and
improving user experience. However, images from sparse views only contain very
limited 3D information, leading to two significant challenges: 1) Difficulty in
building multi-view consistency as images for matching are too few; 2)
Partially omitted or highly compressed object information as view coverage is
insufficient. To tackle these challenges, we propose GaussianObject, a
framework to represent and render the 3D object with Gaussian splatting, that
achieves high rendering quality with only 4 input images. We first introduce
techniques of visual hull and floater elimination which explicitly inject
structure priors into the initial optimization process for helping build
multi-view consistency, yielding a coarse 3D Gaussian representation. Then we
construct a Gaussian repair model based on diffusion models to supplement the
omitted object information, where Gaussians are further refined. We design a
self-generating strategy to obtain image pairs for training the repair model.
Our GaussianObject is evaluated on several challenging datasets, including
MipNeRF360, OmniObject3D, and OpenIllumination, achieving strong reconstruction
results from only 4 views and significantly outperforming previous
state-of-the-art methods.