ChatPaper.aiChatPaper

Incorporando a técnica de "Gaussian Splatting" no Denoiser de Difusão para uma Geração Rápida e Escalável de Imagem-para-3D em um Único Estágio.

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

November 21, 2024
Autores: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille
cs.AI

Resumo

Os métodos existentes de imagem para 3D baseados em feed-forward dependem principalmente de modelos de difusão multi-visão 2D que não conseguem garantir consistência em 3D. Esses métodos colapsam facilmente ao alterar a direção da visualização de referência e lidam principalmente com imagens de referência centradas em objetos. Neste artigo, propomos um novo modelo de difusão 3D de estágio único, DiffusionGS, para geração de objetos e cenas a partir de uma única visualização. O DiffusionGS gera diretamente nuvens de pontos Gaussianas em 3D em cada passo de tempo para impor consistência de visualização e permitir que o modelo gere robustamente visualizações de referência de qualquer direção, além de entradas centradas em objetos. Além disso, para melhorar a capacidade e capacidade de generalização do DiffusionGS, escalamos os dados de treinamento em 3D desenvolvendo uma estratégia de treinamento misto de cena-objeto. Experimentos mostram que nosso método apresenta melhor qualidade de geração (2,20 dB mais alto em PSNR e 23,25 menor em FID) e velocidade mais de 5 vezes mais rápida (~6s em uma GPU A100) do que os métodos de última geração. O estudo do usuário e as aplicações de texto para 3D também revelam os valores práticos do nosso método. Nossa página do projeto em https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra o vídeo e os resultados interativos de geração.
English
Existing feed-forward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric prompt images. In this paper, we propose a novel single-stage 3D diffusion model, DiffusionGS, for object and scene generation from a single view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to enforce view consistency and allow the model to generate robustly given prompt views of any directions, beyond object-centric inputs. Plus, to improve the capability and generalization ability of DiffusionGS, we scale up 3D training data by developing a scene-object mixed training strategy. Experiments show that our method enjoys better generation quality (2.20 dB higher in PSNR and 23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA methods. The user study and text-to-3D applications also reveals the practical values of our method. Our Project page at https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and interactive generation results.

Summary

AI-Generated Summary

PDF92November 22, 2024