ChatPaper.aiChatPaper

Ouroboros3D: Beeld-naar-3D-generatie via 3D-bewuste recursieve diffusie

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

June 5, 2024
Auteurs: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI

Samenvatting

Bestaande methoden voor het creëren van 3D-modellen vanuit één afbeelding omvatten doorgaans een tweestaps proces: eerst worden multi-view afbeeldingen gegenereerd, waarna deze afbeeldingen worden gebruikt voor 3D-reconstructie. Het apart trainen van deze twee fasen leidt echter tot aanzienlijke databias in de inferentiefase, wat de kwaliteit van de gereconstrueerde resultaten beïnvloedt. Wij introduceren een geïntegreerd 3D-generatieframework, genaamd Ouroboros3D, dat diffusiegebaseerde multi-view afbeeldingsgeneratie en 3D-reconstructie combineert in een recursief diffusieproces. In ons framework worden deze twee modules gezamenlijk getraind via een zelfconditioneringsmechanisme, waardoor ze zich kunnen aanpassen aan elkaars kenmerken voor robuuste inferentie. Tijdens het multi-view denoisingproces gebruikt het multi-view diffusiemodel de 3D-aware kaarten die door de reconstructiemodule in de vorige tijdstap zijn gerenderd als aanvullende voorwaarden. Het recursieve diffusieframework met 3D-aware feedback verenigt het gehele proces en verbetert de geometrische consistentie. Experimenten tonen aan dat ons framework superieur presteert ten opzichte van het gescheiden trainen van deze twee fasen en bestaande methoden die ze combineren in de inferentiefase. Projectpagina: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other's characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/
PDF222December 12, 2024