Ouroboros3D: Generación de imágenes a 3D mediante difusión recursiva consciente del 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Autores: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Resumen
Los métodos existentes para la creación de 3D a partir de una sola imagen suelen involucrar un proceso de dos etapas: primero se generan imágenes de múltiples vistas y luego se utilizan estas imágenes para la reconstrucción 3D. Sin embargo, entrenar estas dos etapas por separado conduce a un sesgo significativo en los datos durante la fase de inferencia, lo que afecta la calidad de los resultados reconstruidos. Presentamos un marco unificado de generación 3D, denominado Ouroboros3D, que integra la generación de imágenes de múltiples vistas basada en difusión y la reconstrucción 3D en un proceso de difusión recursiva. En nuestro marco, estos dos módulos se entrenan conjuntamente a través de un mecanismo de auto-condicionamiento, permitiéndoles adaptarse a las características del otro para una inferencia robusta. Durante el proceso de eliminación de ruido en múltiples vistas, el modelo de difusión de múltiples vistas utiliza los mapas conscientes de 3D renderizados por el módulo de reconstrucción en el paso de tiempo anterior como condiciones adicionales. El marco de difusión recursiva con retroalimentación consciente de 3D unifica todo el proceso y mejora la consistencia geométrica. Los experimentos muestran que nuestro marco supera la separación de estas dos etapas y los métodos existentes que las combinan en la fase de inferencia. Página del proyecto: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/Summary
AI-Generated Summary