Magie-Boost: Steigern der 3D-Generierung mit Multi-View-bedingter Diffusion

papers.abstract

Dank der schnellen Entwicklung von 2D-Diffusionsmodellen hat die 3D-Inhalteerstellung in letzter Zeit erhebliche Fortschritte gemacht. Eine vielversprechende Lösung besteht darin, vortrainierte 2D-Diffusionsmodelle feinzutunen, um ihre Fähigkeit zur Erzeugung von Multi-View-Bildern zu nutzen, die dann mithilfe von Methoden wie Fast-NeRFs oder großen Rekonstruktionsmodellen präzise in 3D-Modelle umgewandelt werden. Da jedoch immer noch Inkonsistenzen bestehen und die erzeugte Auflösung begrenzt ist, fehlen den Generierungsergebnissen solcher Methoden immer noch komplexe Texturen und komplexe Geometrien. Um dieses Problem zu lösen, schlagen wir Magic-Boost vor, ein Multi-View-konditioniertes Diffusionsmodell, das grobe generative Ergebnisse durch eine kurze Phase der SDS-Optimierung (ca. 15 Minuten) signifikant verfeinert. Im Vergleich zu den früheren text- oder einzelbildbasierten Diffusionsmodellen zeigt Magic-Boost eine robuste Fähigkeit zur Erzeugung von Bildern mit hoher Konsistenz aus pseudo-synthetisierten Multi-View-Bildern. Es bietet präzise SDS-Anleitung, die gut mit der Identität der Eingabebilder übereinstimmt, und bereichert die lokalen Details sowohl in der Geometrie als auch in der Textur der ursprünglichen generativen Ergebnisse. Umfangreiche Experimente zeigen, dass Magic-Boost die groben Eingaben erheblich verbessert und hochwertige 3D-Ressourcen mit reichen geometrischen und texturierten Details erzeugt. (Projektseite: https://magic-research.github.io/magic-boost/)

English

Benefiting from the rapid development of 2D diffusion models, 3D content creation has made significant progress recently. One promising solution involves the fine-tuning of pre-trained 2D diffusion models to harness their capacity for producing multi-view images, which are then lifted into accurate 3D models via methods like fast-NeRFs or large reconstruction models. However, as inconsistency still exists and limited generated resolution, the generation results of such methods still lack intricate textures and complex geometries. To solve this problem, we propose Magic-Boost, a multi-view conditioned diffusion model that significantly refines coarse generative results through a brief period of SDS optimization (sim15min). Compared to the previous text or single image based diffusion models, Magic-Boost exhibits a robust capability to generate images with high consistency from pseudo synthesized multi-view images. It provides precise SDS guidance that well aligns with the identity of the input images, enriching the local detail in both geometry and texture of the initial generative results. Extensive experiments show Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D assets with rich geometric and textural details. (Project Page: https://magic-research.github.io/magic-boost/)

Magie-Boost: Steigern der 3D-Generierung mit Multi-View-bedingter Diffusion

Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion

papers.abstract

Support