ChatPaper.aiChatPaper

Magic-Boost: Verbeter 3D-generatie met Multi-View Conditioned Diffusion

Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion

April 9, 2024
Auteurs: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI

Samenvatting

Profiterend van de snelle ontwikkeling van 2D-diffusiemodellen, heeft de creatie van 3D-inhoud recentelijk aanzienlijke vooruitgang geboekt. Een veelbelovende oplossing omvat het fine-tunen van vooraf getrainde 2D-diffusiemodellen om hun vermogen te benutten voor het produceren van multi-view afbeeldingen, die vervolgens worden omgezet in nauwkeurige 3D-modellen via methoden zoals fast-NeRFs of grote reconstructiemodellen. Echter, vanwege de nog bestaande inconsistenties en de beperkte gegenereerde resolutie, ontbreekt het de generatieresultaten van dergelijke methoden nog steeds aan gedetailleerde texturen en complexe geometrieën. Om dit probleem op te lossen, stellen we Magic-Boost voor, een multi-view geconditioneerd diffusiemodel dat ruwe generatieresultaten aanzienlijk verfijnt door middel van een korte periode van SDS-optimalisatie (sim15min). In vergelijking met eerdere tekst- of single image gebaseerde diffusiemodellen, toont Magic-Boost een robuust vermogen om afbeeldingen met hoge consistentie te genereren vanuit pseudo gesynthetiseerde multi-view afbeeldingen. Het biedt nauwkeurige SDS-begeleiding die goed aansluit bij de identiteit van de invoerafbeeldingen, waardoor de lokale details in zowel geometrie als textuur van de initiële generatieresultaten worden verrijkt. Uitgebreide experimenten tonen aan dat Magic-Boost de ruwe invoer aanzienlijk verbetert en hoogwaardige 3D-assets genereert met rijke geometrische en textuurdetails. (Projectpagina: https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content creation has made significant progress recently. One promising solution involves the fine-tuning of pre-trained 2D diffusion models to harness their capacity for producing multi-view images, which are then lifted into accurate 3D models via methods like fast-NeRFs or large reconstruction models. However, as inconsistency still exists and limited generated resolution, the generation results of such methods still lack intricate textures and complex geometries. To solve this problem, we propose Magic-Boost, a multi-view conditioned diffusion model that significantly refines coarse generative results through a brief period of SDS optimization (sim15min). Compared to the previous text or single image based diffusion models, Magic-Boost exhibits a robust capability to generate images with high consistency from pseudo synthesized multi-view images. It provides precise SDS guidance that well aligns with the identity of the input images, enriching the local detail in both geometry and texture of the initial generative results. Extensive experiments show Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D assets with rich geometric and textural details. (Project Page: https://magic-research.github.io/magic-boost/)
PDF70December 15, 2024