Ouroboros3D: Generazione da Immagine a 3D tramite Diffusione Ricorsiva Consapevole del 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Autori: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Abstract
I metodi esistenti per la creazione di modelli 3D da una singola immagine tipicamente coinvolgono un processo in due fasi: prima si generano immagini multi-vista, e poi si utilizzano queste immagini per la ricostruzione 3D. Tuttavia, l'addestramento separato di queste due fasi porta a un significativo bias nei dati durante la fase di inferenza, influenzando così la qualità dei risultati ricostruiti. Introduciamo un framework unificato per la generazione 3D, denominato Ouroboros3D, che integra la generazione di immagini multi-vista basata su diffusione e la ricostruzione 3D in un processo di diffusione ricorsivo. Nel nostro framework, questi due moduli sono addestrati congiuntamente attraverso un meccanismo di auto-condizionamento, permettendo loro di adattarsi reciprocamente alle rispettive caratteristiche per un'inferenza robusta. Durante il processo di denoising multi-vista, il modello di diffusione multi-vista utilizza le mappe 3D-aware renderizzate dal modulo di ricostruzione al passo temporale precedente come condizioni aggiuntive. Il framework di diffusione ricorsiva con feedback 3D-aware unifica l'intero processo e migliora la coerenza geometrica. Gli esperimenti dimostrano che il nostro framework supera la separazione di queste due fasi e i metodi esistenti che le combinano nella fase di inferenza. Pagina del progetto: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/