Ouroboros3D: Bild-zu-3D-Generierung durch 3D-bewusste rekursive Diffusion

papers.abstract

Bestehende Methoden zur Erstellung von 3D-Modellen aus Einzelbildern umfassen in der Regel einen zweistufigen Prozess, bei dem zunächst Multi-View-Bilder generiert und diese dann für die 3D-Rekonstruktion verwendet werden. Das separate Training dieser beiden Stufen führt jedoch im Inferenzschritt zu erheblichen Datenverzerrungen, was sich negativ auf die Qualität der rekonstruierten Ergebnisse auswirkt. Wir stellen ein vereinheitlichtes 3D-Generierungs-Framework namens Ouroboros3D vor, das die auf Diffusion basierende Generierung von Multi-View-Bildern und die 3D-Rekonstruktion in einen rekursiven Diffusionsprozess integriert. In unserem Framework werden diese beiden Module durch einen Selbstkonditionierungsmechanismus gemeinsam trainiert, der es ihnen ermöglicht, sich an die jeweiligen Eigenschaften des anderen anzupassen, um robuste Inferenzen zu ermöglichen. Während des Multi-View-Denoising-Prozesses verwendet das Multi-View-Diffusionsmodell die 3D-bewussten Karten, die vom Rekonstruktionsmodul im vorherigen Zeitschritt gerendert wurden, als zusätzliche Bedingungen. Das rekursive Diffusionsframework mit 3D-bewusstem Feedback vereint den gesamten Prozess und verbessert die geometrische Konsistenz. Experimente zeigen, dass unser Framework die Trennung dieser beiden Stufen und bestehende Methoden, die sie im Inferenzschritt kombinieren, übertrifft. Projektseite: https://costwen.github.io/Ouroboros3D/

English

Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other's characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/

Ouroboros3D: Bild-zu-3D-Generierung durch 3D-bewusste rekursive Diffusion

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

papers.abstract

Support