Cycle3D: Hoogwaardige en consistente beeld-naar-3D-generatie via een generatie-reconstructiecyclus
Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle
July 28, 2024
Auteurs: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI
Samenvatting
Recente 3D-reconstructiemodellen gebruiken doorgaans een proces in twee fasen,
waarbij eerst multi-view afbeeldingen worden gegenereerd door een multi-view diffusiemodel, en
vervolgens een feed-forward model wordt gebruikt om de afbeeldingen om te zetten naar 3D-inhoud. Echter,
multi-view diffusiemodellen produceren vaak afbeeldingen van lage kwaliteit en inconsistenties,
wat een negatieve invloed heeft op de kwaliteit van de uiteindelijke 3D-reconstructie. Om dit probleem
aan te pakken, stellen we een geïntegreerd 3D-generatieframework voor genaamd Cycle3D, dat
cyclisch gebruikmaakt van een 2D diffusiegebaseerd generatiemodule en een feed-forward
3D-reconstructiemodule tijdens het multi-step diffusieproces. Concreet wordt
het 2D diffusiemodel toegepast voor het genereren van hoogwaardige texturen, en het
reconstructiemodel zorgt voor multi-view consistentie. Bovendien kan het 2D diffusiemodel
de gegenereerde inhoud verder controleren en referentie-view informatie injecteren voor niet-geziene views,
waardoor de diversiteit en textuurconsistentie van de 3D-generatie tijdens het denoisingsproces wordt verbeterd. Uitgebreide
experimenten tonen de superieure mogelijkheden van onze methode aan om 3D-inhoud te creëren
met hoge kwaliteit en consistentie in vergelijking met state-of-the-art baselines.
English
Recent 3D large reconstruction models typically employ a two-stage process,
including first generate multi-view images by a multi-view diffusion model, and
then utilize a feed-forward model to reconstruct images to 3D content.However,
multi-view diffusion models often produce low-quality and inconsistent images,
adversely affecting the quality of the final 3D reconstruction. To address this
issue, we propose a unified 3D generation framework called Cycle3D, which
cyclically utilizes a 2D diffusion-based generation module and a feed-forward
3D reconstruction module during the multi-step diffusion process. Concretely,
2D diffusion model is applied for generating high-quality texture, and the
reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion
model can further control the generated content and inject reference-view
information for unseen views, thereby enhancing the diversity and texture
consistency of 3D generation during the denoising process. Extensive
experiments demonstrate the superior ability of our method to create 3D content
with high-quality and consistency compared with state-of-the-art baselines.