Magic-Boost : Amélioration de la génération 3D avec une diffusion conditionnée par vues multiples
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion
April 9, 2024
papers.authors: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI
papers.abstract
Profitant du développement rapide des modèles de diffusion 2D, la création de contenu 3D a récemment réalisé des progrès significatifs. Une solution prometteuse consiste à affiner des modèles de diffusion 2D pré-entraînés pour exploiter leur capacité à produire des images multi-vues, qui sont ensuite transformées en modèles 3D précis via des méthodes comme les fast-NeRFs ou les grands modèles de reconstruction. Cependant, en raison de l'incohérence persistante et de la résolution générée limitée, les résultats de génération de ces méthodes manquent encore de textures complexes et de géométries détaillées. Pour résoudre ce problème, nous proposons Magic-Boost, un modèle de diffusion conditionné multi-vues qui affine significativement les résultats génératifs bruts grâce à une courte période d'optimisation SDS (sim15min). Comparé aux précédents modèles de diffusion basés sur du texte ou une seule image, Magic-Boost démontre une capacité robuste à générer des images hautement cohérentes à partir d'images multi-vues pseudo-synthétisées. Il fournit un guidage SDS précis qui s'aligne bien avec l'identité des images d'entrée, enrichissant les détails locaux tant en géométrie qu'en texture des résultats génératifs initiaux. Des expériences approfondies montrent que Magic-Boost améliore grandement les entrées brutes et génère des actifs 3D de haute qualité avec des détails géométriques et texturaux riches. (Page du projet : https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content
creation has made significant progress recently. One promising solution
involves the fine-tuning of pre-trained 2D diffusion models to harness their
capacity for producing multi-view images, which are then lifted into accurate
3D models via methods like fast-NeRFs or large reconstruction models. However,
as inconsistency still exists and limited generated resolution, the generation
results of such methods still lack intricate textures and complex geometries.
To solve this problem, we propose Magic-Boost, a multi-view conditioned
diffusion model that significantly refines coarse generative results through a
brief period of SDS optimization (sim15min). Compared to the previous text
or single image based diffusion models, Magic-Boost exhibits a robust
capability to generate images with high consistency from pseudo synthesized
multi-view images. It provides precise SDS guidance that well aligns with the
identity of the input images, enriching the local detail in both geometry and
texture of the initial generative results. Extensive experiments show
Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D
assets with rich geometric and textural details. (Project Page:
https://magic-research.github.io/magic-boost/)