Ouroboros3D: Geração de Imagem para 3D via Difusão Recursiva com Consciência 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Autores: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Resumo
Os métodos existentes de criação de 3D a partir de uma única imagem geralmente envolvem um processo em duas etapas: primeiro, geram imagens de múltiplas vistas e, em seguida, usam essas imagens para a reconstrução 3D. No entanto, o treinamento separado dessas duas etapas leva a um viés significativo de dados na fase de inferência, afetando assim a qualidade dos resultados reconstruídos. Introduzimos um framework unificado de geração 3D, denominado Ouroboros3D, que integra a geração de imagens de múltiplas vistas baseada em difusão e a reconstrução 3D em um processo recursivo de difusão. Em nosso framework, esses dois módulos são treinados conjuntamente por meio de um mecanismo de autocondicionamento, permitindo que se adaptem às características um do outro para uma inferência robusta. Durante o processo de remoção de ruído de múltiplas vistas, o modelo de difusão de múltiplas vistas utiliza mapas 3D-aware renderizados pelo módulo de reconstrução no passo de tempo anterior como condições adicionais. O framework de difusão recursiva com feedback 3D-aware unifica todo o processo e melhora a consistência geométrica. Experimentos mostram que nosso framework supera a separação dessas duas etapas e os métodos existentes que as combinam na fase de inferência. Página do projeto: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/