IM-3D: Difusão e Reconstrução Iterativa Multivista para Geração de Alta Qualidade em 3D
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation
February 13, 2024
Autores: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI
Resumo
A maioria dos geradores de texto-para-3D se baseia em modelos pré-treinados de texto-para-imagem, treinados em bilhões de imagens. Eles utilizam variantes de Amostragem por Distilação de Pontuação (SDS, na sigla em inglês), que é lenta, um tanto instável e propensa a artefatos. Uma mitigação é ajustar o gerador 2D para ser consciente de múltiplas visões, o que pode auxiliar na destilação ou ser combinado com redes de reconstrução para gerar objetos 3D diretamente. Neste artigo, exploramos ainda mais o espaço de design dos modelos de texto-para-3D. Melhoramos significativamente a geração de múltiplas visões ao considerar geradores de vídeo em vez de geradores de imagem. Combinado com um algoritmo de reconstrução 3D que, ao usar splatting Gaussiano, pode otimizar uma função de perda robusta baseada em imagem, produzimos diretamente saídas 3D de alta qualidade a partir das visões geradas. Nosso novo método, IM-3D, reduz o número de avaliações da rede geradora 2D em 10 a 100 vezes, resultando em um pipeline muito mais eficiente, melhor qualidade, menos inconsistências geométricas e um maior rendimento de ativos 3D utilizáveis.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models
trained on billions of images. They use variants of Score Distillation Sampling
(SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation
is to fine-tune the 2D generator to be multi-view aware, which can help
distillation or can be combined with reconstruction networks to output 3D
objects directly. In this paper, we further explore the design space of
text-to-3D models. We significantly improve multi-view generation by
considering video instead of image generators. Combined with a 3D
reconstruction algorithm which, by using Gaussian splatting, can optimize a
robust image-based loss, we directly produce high-quality 3D outputs from the
generated views. Our new method, IM-3D, reduces the number of evaluations of
the 2D generator network 10-100x, resulting in a much more efficient pipeline,
better quality, fewer geometric inconsistencies, and higher yield of usable 3D
assets.