Incorporación de la técnica de esparcimiento gaussiano en el denoiser de difusión para una generación rápida y escalable de imágenes a 3D en una sola etapa.
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
November 21, 2024
Autores: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille
cs.AI
Resumen
Los métodos existentes de imágenes a 3D de avance de alimentación se basan principalmente en modelos de difusión de múltiples vistas en 2D que no pueden garantizar consistencia en 3D. Estos métodos colapsan fácilmente al cambiar la dirección de la vista de referencia y principalmente manejan imágenes de referencia centradas en objetos. En este documento, proponemos un nuevo modelo de difusión 3D de una sola etapa, DiffusionGS, para la generación de objetos y escenas a partir de una sola vista. DiffusionGS produce directamente nubes de puntos gaussianas en 3D en cada paso de tiempo para imponer consistencia de vista y permitir que el modelo genere de manera robusta vistas de referencia de cualquier dirección, más allá de las entradas centradas en objetos. Además, para mejorar la capacidad y la capacidad de generalización de DiffusionGS, escalamos los datos de entrenamiento en 3D mediante el desarrollo de una estrategia de entrenamiento mixta de escena-objeto. Los experimentos muestran que nuestro método disfruta de una mejor calidad de generación (2,20 dB más alto en PSNR y 23,25 más bajo en FID) y una velocidad más rápida de más de 5 veces (~6s en una GPU A100) que los métodos de última generación. El estudio de usuario y las aplicaciones de texto a 3D también revelan los valores prácticos de nuestro método. Nuestra página del proyecto en https://caiyuanhao1998.github.io/project/DiffusionGS/ muestra el video y los resultados interactivos de generación.
English
Existing feed-forward image-to-3D methods mainly rely on 2D multi-view
diffusion models that cannot guarantee 3D consistency. These methods easily
collapse when changing the prompt view direction and mainly handle
object-centric prompt images. In this paper, we propose a novel single-stage 3D
diffusion model, DiffusionGS, for object and scene generation from a single
view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to
enforce view consistency and allow the model to generate robustly given prompt
views of any directions, beyond object-centric inputs. Plus, to improve the
capability and generalization ability of DiffusionGS, we scale up 3D training
data by developing a scene-object mixed training strategy. Experiments show
that our method enjoys better generation quality (2.20 dB higher in PSNR and
23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA
methods. The user study and text-to-3D applications also reveals the practical
values of our method. Our Project page at
https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and
interactive generation results.Summary
AI-Generated Summary