Incorporando a técnica de "Gaussian Splatting" no Denoiser de Difusão para uma Geração Rápida e Escalável de Imagem-para-3D em um Único Estágio.
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
November 21, 2024
Autores: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille
cs.AI
Resumo
Os métodos existentes de imagem para 3D baseados em feed-forward dependem principalmente de modelos de difusão multi-visão 2D que não conseguem garantir consistência em 3D. Esses métodos colapsam facilmente ao alterar a direção da visualização de referência e lidam principalmente com imagens de referência centradas em objetos. Neste artigo, propomos um novo modelo de difusão 3D de estágio único, DiffusionGS, para geração de objetos e cenas a partir de uma única visualização. O DiffusionGS gera diretamente nuvens de pontos Gaussianas em 3D em cada passo de tempo para impor consistência de visualização e permitir que o modelo gere robustamente visualizações de referência de qualquer direção, além de entradas centradas em objetos. Além disso, para melhorar a capacidade e capacidade de generalização do DiffusionGS, escalamos os dados de treinamento em 3D desenvolvendo uma estratégia de treinamento misto de cena-objeto. Experimentos mostram que nosso método apresenta melhor qualidade de geração (2,20 dB mais alto em PSNR e 23,25 menor em FID) e velocidade mais de 5 vezes mais rápida (~6s em uma GPU A100) do que os métodos de última geração. O estudo do usuário e as aplicações de texto para 3D também revelam os valores práticos do nosso método. Nossa página do projeto em https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra o vídeo e os resultados interativos de geração.
English
Existing feed-forward image-to-3D methods mainly rely on 2D multi-view
diffusion models that cannot guarantee 3D consistency. These methods easily
collapse when changing the prompt view direction and mainly handle
object-centric prompt images. In this paper, we propose a novel single-stage 3D
diffusion model, DiffusionGS, for object and scene generation from a single
view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to
enforce view consistency and allow the model to generate robustly given prompt
views of any directions, beyond object-centric inputs. Plus, to improve the
capability and generalization ability of DiffusionGS, we scale up 3D training
data by developing a scene-object mixed training strategy. Experiments show
that our method enjoys better generation quality (2.20 dB higher in PSNR and
23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA
methods. The user study and text-to-3D applications also reveals the practical
values of our method. Our Project page at
https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and
interactive generation results.Summary
AI-Generated Summary