Ouroboros3D : Génération d'images en 3D via une diffusion récursive consciente de la 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Auteurs: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Résumé
Les méthodes existantes de création 3D à partir d'une seule image impliquent généralement un processus en deux étapes : d'abord la génération d'images multi-vues, puis l'utilisation de ces images pour la reconstruction 3D. Cependant, l'entraînement séparé de ces deux étapes entraîne un biais de données significatif lors de la phase d'inférence, affectant ainsi la qualité des résultats reconstruits. Nous introduisons un cadre unifié de génération 3D, nommé Ouroboros3D, qui intègre la génération d'images multi-vues basée sur la diffusion et la reconstruction 3D dans un processus de diffusion récursif. Dans notre cadre, ces deux modules sont entraînés conjointement via un mécanisme d'auto-conditionnement, leur permettant de s'adapter mutuellement pour une inférence robuste. Durant le processus de débruitage multi-vues, le modèle de diffusion multi-vues utilise les cartes 3D-aware rendues par le module de reconstruction à l'étape précédente comme conditions supplémentaires. Le cadre de diffusion récursive avec rétroaction 3D-aware unifie l'ensemble du processus et améliore la cohérence géométrique. Les expériences montrent que notre cadre surpasse la séparation de ces deux étapes ainsi que les méthodes existantes qui les combinent lors de la phase d'inférence. Page du projet : https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/Summary
AI-Generated Summary