Magie-Boost: Steigern der 3D-Generierung mit Multi-View-bedingter Diffusion
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion
April 9, 2024
Autoren: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI
Zusammenfassung
Dank der schnellen Entwicklung von 2D-Diffusionsmodellen hat die 3D-Inhalteerstellung in letzter Zeit erhebliche Fortschritte gemacht. Eine vielversprechende Lösung besteht darin, vortrainierte 2D-Diffusionsmodelle feinzutunen, um ihre Fähigkeit zur Erzeugung von Multi-View-Bildern zu nutzen, die dann mithilfe von Methoden wie Fast-NeRFs oder großen Rekonstruktionsmodellen präzise in 3D-Modelle umgewandelt werden. Da jedoch immer noch Inkonsistenzen bestehen und die erzeugte Auflösung begrenzt ist, fehlen den Generierungsergebnissen solcher Methoden immer noch komplexe Texturen und komplexe Geometrien. Um dieses Problem zu lösen, schlagen wir Magic-Boost vor, ein Multi-View-konditioniertes Diffusionsmodell, das grobe generative Ergebnisse durch eine kurze Phase der SDS-Optimierung (ca. 15 Minuten) signifikant verfeinert. Im Vergleich zu den früheren text- oder einzelbildbasierten Diffusionsmodellen zeigt Magic-Boost eine robuste Fähigkeit zur Erzeugung von Bildern mit hoher Konsistenz aus pseudo-synthetisierten Multi-View-Bildern. Es bietet präzise SDS-Anleitung, die gut mit der Identität der Eingabebilder übereinstimmt, und bereichert die lokalen Details sowohl in der Geometrie als auch in der Textur der ursprünglichen generativen Ergebnisse. Umfangreiche Experimente zeigen, dass Magic-Boost die groben Eingaben erheblich verbessert und hochwertige 3D-Ressourcen mit reichen geometrischen und texturierten Details erzeugt. (Projektseite: https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content
creation has made significant progress recently. One promising solution
involves the fine-tuning of pre-trained 2D diffusion models to harness their
capacity for producing multi-view images, which are then lifted into accurate
3D models via methods like fast-NeRFs or large reconstruction models. However,
as inconsistency still exists and limited generated resolution, the generation
results of such methods still lack intricate textures and complex geometries.
To solve this problem, we propose Magic-Boost, a multi-view conditioned
diffusion model that significantly refines coarse generative results through a
brief period of SDS optimization (sim15min). Compared to the previous text
or single image based diffusion models, Magic-Boost exhibits a robust
capability to generate images with high consistency from pseudo synthesized
multi-view images. It provides precise SDS guidance that well aligns with the
identity of the input images, enriching the local detail in both geometry and
texture of the initial generative results. Extensive experiments show
Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D
assets with rich geometric and textural details. (Project Page:
https://magic-research.github.io/magic-boost/)Summary
AI-Generated Summary