Cycle3D: Generazione di immagini 3D di alta qualità e coerenti tramite il ciclo generazione-ricostruzione
Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle
July 28, 2024
Autori: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI
Abstract
I recenti modelli di ricostruzione 3D su larga scala impiegano tipicamente un processo in due fasi, che include prima la generazione di immagini multi-vista tramite un modello di diffusione multi-vista, e poi l'utilizzo di un modello feed-forward per ricostruire le immagini in contenuti 3D. Tuttavia, i modelli di diffusione multi-vista spesso producono immagini di bassa qualità e inconsistenti, influenzando negativamente la qualità della ricostruzione 3D finale. Per affrontare questo problema, proponiamo un framework unificato di generazione 3D chiamato Cycle3D, che utilizza ciclicamente un modulo di generazione basato su diffusione 2D e un modulo di ricostruzione 3D feed-forward durante il processo di diffusione multi-step. Nello specifico, il modello di diffusione 2D viene applicato per generare texture di alta qualità, mentre il modello di ricostruzione garantisce la consistenza multi-vista. Inoltre, il modello di diffusione 2D può ulteriormente controllare il contenuto generato e iniettare informazioni di vista di riferimento per viste non visibili, migliorando così la diversità e la consistenza della texture nella generazione 3D durante il processo di denoising. Esperimenti estensivi dimostrano la capacità superiore del nostro metodo di creare contenuti 3D con alta qualità e consistenza rispetto ai baseline state-of-the-art.
English
Recent 3D large reconstruction models typically employ a two-stage process,
including first generate multi-view images by a multi-view diffusion model, and
then utilize a feed-forward model to reconstruct images to 3D content.However,
multi-view diffusion models often produce low-quality and inconsistent images,
adversely affecting the quality of the final 3D reconstruction. To address this
issue, we propose a unified 3D generation framework called Cycle3D, which
cyclically utilizes a 2D diffusion-based generation module and a feed-forward
3D reconstruction module during the multi-step diffusion process. Concretely,
2D diffusion model is applied for generating high-quality texture, and the
reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion
model can further control the generated content and inject reference-view
information for unseen views, thereby enhancing the diversity and texture
consistency of 3D generation during the denoising process. Extensive
experiments demonstrate the superior ability of our method to create 3D content
with high-quality and consistency compared with state-of-the-art baselines.