ChatPaper.aiChatPaper

Cycle3D : Génération d'images en 3D de haute qualité et cohérente via un cycle de génération-reconstruction

Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle

July 28, 2024
Auteurs: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI

Résumé

Les modèles récents de reconstruction 3D à grande échelle utilisent généralement un processus en deux étapes, consistant d'abord à générer des images multi-vues via un modèle de diffusion multi-vues, puis à reconstruire ces images en contenu 3D à l'aide d'un modèle feed-forward. Cependant, les modèles de diffusion multi-vues produisent souvent des images de faible qualité et incohérentes, ce qui affecte négativement la qualité de la reconstruction 3D finale. Pour résoudre ce problème, nous proposons un cadre unifié de génération 3D appelé Cycle3D, qui utilise de manière cyclique un module de génération basé sur la diffusion 2D et un module de reconstruction 3D feed-forward pendant le processus de diffusion multi-étapes. Concrètement, le modèle de diffusion 2D est appliqué pour générer des textures de haute qualité, tandis que le modèle de reconstruction garantit la cohérence multi-vues. De plus, le modèle de diffusion 2D peut contrôler davantage le contenu généré et injecter des informations de vue de référence pour des vues non visibles, améliorant ainsi la diversité et la cohérence des textures lors du processus de débruîtage. Des expériences approfondies démontrent la capacité supérieure de notre méthode à créer du contenu 3D de haute qualité et cohérent par rapport aux meilleures méthodes de référence.
English
Recent 3D large reconstruction models typically employ a two-stage process, including first generate multi-view images by a multi-view diffusion model, and then utilize a feed-forward model to reconstruct images to 3D content.However, multi-view diffusion models often produce low-quality and inconsistent images, adversely affecting the quality of the final 3D reconstruction. To address this issue, we propose a unified 3D generation framework called Cycle3D, which cyclically utilizes a 2D diffusion-based generation module and a feed-forward 3D reconstruction module during the multi-step diffusion process. Concretely, 2D diffusion model is applied for generating high-quality texture, and the reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion model can further control the generated content and inject reference-view information for unseen views, thereby enhancing the diversity and texture consistency of 3D generation during the denoising process. Extensive experiments demonstrate the superior ability of our method to create 3D content with high-quality and consistency compared with state-of-the-art baselines.

Summary

AI-Generated Summary

PDF282November 28, 2024