Ouroboros3D: Bild-zu-3D-Generierung durch 3D-bewusste rekursive Diffusion
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Autoren: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Zusammenfassung
Bestehende Methoden zur Erstellung von 3D-Modellen aus Einzelbildern umfassen in der Regel einen zweistufigen Prozess, bei dem zunächst Multi-View-Bilder generiert und diese dann für die 3D-Rekonstruktion verwendet werden. Das separate Training dieser beiden Stufen führt jedoch im Inferenzschritt zu erheblichen Datenverzerrungen, was sich negativ auf die Qualität der rekonstruierten Ergebnisse auswirkt. Wir stellen ein vereinheitlichtes 3D-Generierungs-Framework namens Ouroboros3D vor, das die auf Diffusion basierende Generierung von Multi-View-Bildern und die 3D-Rekonstruktion in einen rekursiven Diffusionsprozess integriert. In unserem Framework werden diese beiden Module durch einen Selbstkonditionierungsmechanismus gemeinsam trainiert, der es ihnen ermöglicht, sich an die jeweiligen Eigenschaften des anderen anzupassen, um robuste Inferenzen zu ermöglichen. Während des Multi-View-Denoising-Prozesses verwendet das Multi-View-Diffusionsmodell die 3D-bewussten Karten, die vom Rekonstruktionsmodul im vorherigen Zeitschritt gerendert wurden, als zusätzliche Bedingungen. Das rekursive Diffusionsframework mit 3D-bewusstem Feedback vereint den gesamten Prozess und verbessert die geometrische Konsistenz. Experimente zeigen, dass unser Framework die Trennung dieser beiden Stufen und bestehende Methoden, die sie im Inferenzschritt kombinieren, übertrifft. Projektseite: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/Summary
AI-Generated Summary