MVDream: Multi-view diffusie voor 3D-generatie

Samenvatting

Wij stellen MVDream voor, een multi-view diffusiemodel dat in staat is om geometrisch consistente multi-view afbeeldingen te genereren vanuit een gegeven tekstprompt. Door gebruik te maken van beelddiffusiemodellen die vooraf zijn getraind op grootschalige webdatasets en een multi-view dataset gegenereerd uit 3D-assets, kan het resulterende multi-view diffusiemodel zowel de generaliseerbaarheid van 2D-diffusie als de consistentie van 3D-data bereiken. Zo'n model kan daarom worden toegepast als een multi-view prior voor 3D-generatie via Score Distillation Sampling, waarbij het de stabiliteit van bestaande 2D-liftingmethoden aanzienlijk verbetert door het 3D-consistentieprobleem op te lossen. Tot slot tonen we aan dat het multi-view diffusiemodel ook kan worden afgestemd onder een few-shot instelling voor gepersonaliseerde 3D-generatie, zoals in de DreamBooth3D-toepassing, waarbij de consistentie behouden blijft na het leren van de subjectidentiteit.

English

We propose MVDream, a multi-view diffusion model that is able to generate geometrically consistent multi-view images from a given text prompt. By leveraging image diffusion models pre-trained on large-scale web datasets and a multi-view dataset rendered from 3D assets, the resulting multi-view diffusion model can achieve both the generalizability of 2D diffusion and the consistency of 3D data. Such a model can thus be applied as a multi-view prior for 3D generation via Score Distillation Sampling, where it greatly improves the stability of existing 2D-lifting methods by solving the 3D consistency problem. Finally, we show that the multi-view diffusion model can also be fine-tuned under a few shot setting for personalized 3D generation, i.e. DreamBooth3D application, where the consistency can be maintained after learning the subject identity.

MVDream: Multi-view diffusie voor 3D-generatie

MVDream: Multi-view Diffusion for 3D Generation

Samenvatting

Support