Ouroboros3D: Geração de Imagem para 3D via Difusão Recursiva com Consciência 3D

Resumo

Os métodos existentes de criação de 3D a partir de uma única imagem geralmente envolvem um processo em duas etapas: primeiro, geram imagens de múltiplas vistas e, em seguida, usam essas imagens para a reconstrução 3D. No entanto, o treinamento separado dessas duas etapas leva a um viés significativo de dados na fase de inferência, afetando assim a qualidade dos resultados reconstruídos. Introduzimos um framework unificado de geração 3D, denominado Ouroboros3D, que integra a geração de imagens de múltiplas vistas baseada em difusão e a reconstrução 3D em um processo recursivo de difusão. Em nosso framework, esses dois módulos são treinados conjuntamente por meio de um mecanismo de autocondicionamento, permitindo que se adaptem às características um do outro para uma inferência robusta. Durante o processo de remoção de ruído de múltiplas vistas, o modelo de difusão de múltiplas vistas utiliza mapas 3D-aware renderizados pelo módulo de reconstrução no passo de tempo anterior como condições adicionais. O framework de difusão recursiva com feedback 3D-aware unifica todo o processo e melhora a consistência geométrica. Experimentos mostram que nosso framework supera a separação dessas duas etapas e os métodos existentes que as combinam na fase de inferência. Página do projeto: https://costwen.github.io/Ouroboros3D/

English

Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other's characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/

Ouroboros3D: Geração de Imagem para 3D via Difusão Recursiva com Consciência 3D

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

Resumo

Support