Cycle3D: Hochwertige und konsistente Bild-zu-3D-Generierung durch Generations-Rekonstruktionszyklus
Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle
July 28, 2024
Autoren: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI
Zusammenfassung
Aktuelle 3D-Großrekonstruktionsmodelle verwenden typischerweise einen zweistufigen Prozess, der zunächst das Generieren von Multi-View-Bildern durch ein Multi-View-Diffusionsmodell und anschließend die Verwendung eines Feed-Forward-Modells zur Rekonstruktion von Bildern zu 3D-Inhalten umfasst. Allerdings erzeugen Multi-View-Diffusionsmodelle oft Bilder von geringer Qualität und Inkonsistenzen, was sich negativ auf die Qualität der endgültigen 3D-Rekonstruktion auswirkt. Um dieses Problem zu lösen, schlagen wir ein vereinheitlichtes 3D-Generierungsframework namens Cycle3D vor, das zyklisch ein 2D-Diffusionsbasiertes Generierungsmodul und ein Feed-Forward-3D-Rekonstruktionsmodul während des mehrstufigen Diffusionsprozesses verwendet. Konkret wird das 2D-Diffusionsmodell zur Generierung hochwertiger Texturen angewendet, während das Rekonstruktionsmodell die Multi-View-Konsistenz gewährleistet. Darüber hinaus kann das 2D-Diffusionsmodell den generierten Inhalt weiter steuern und Referenzansichtsinformationen für nicht gesehene Ansichten einspeisen, wodurch die Vielfalt und Texturkonsistenz der 3D-Generierung während des Entrauschungsprozesses verbessert werden. Umfangreiche Experimente zeigen die überlegene Fähigkeit unserer Methode, 3D-Inhalte mit hoher Qualität und Konsistenz im Vergleich zu State-of-the-Art-Baselines zu erstellen.
English
Recent 3D large reconstruction models typically employ a two-stage process,
including first generate multi-view images by a multi-view diffusion model, and
then utilize a feed-forward model to reconstruct images to 3D content.However,
multi-view diffusion models often produce low-quality and inconsistent images,
adversely affecting the quality of the final 3D reconstruction. To address this
issue, we propose a unified 3D generation framework called Cycle3D, which
cyclically utilizes a 2D diffusion-based generation module and a feed-forward
3D reconstruction module during the multi-step diffusion process. Concretely,
2D diffusion model is applied for generating high-quality texture, and the
reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion
model can further control the generated content and inject reference-view
information for unseen views, thereby enhancing the diversity and texture
consistency of 3D generation during the denoising process. Extensive
experiments demonstrate the superior ability of our method to create 3D content
with high-quality and consistency compared with state-of-the-art baselines.Summary
AI-Generated Summary