IM-3D: Iteratieve Multiview Diffusie en Reconstructie voor Hoogwaardige 3D-generatie
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation
February 13, 2024
Auteurs: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI
Samenvatting
De meeste tekst-naar-3D-generatoren bouwen voort op standaard tekst-naar-beeldmodellen die getraind zijn op miljarden afbeeldingen. Ze gebruiken varianten van Score Distillation Sampling (SDS), wat traag, enigszins instabiel en gevoelig voor artefacten is. Een oplossing is om het 2D-generatormodel te finetunen zodat het multi-view bewust wordt, wat kan helpen bij de distillatie of gecombineerd kan worden met reconstructienetwerken om direct 3D-objecten te genereren. In dit artikel verkennen we verder het ontwerpruimte van tekst-naar-3D-modellen. We verbeteren de multi-view-generatie aanzienlijk door in plaats van beeldgeneratoren videogeneratoren te gebruiken. In combinatie met een 3D-reconstructiealgoritme dat, door gebruik te maken van Gaussian splatting, een robuust beeldgebaseerd verlies kan optimaliseren, produceren we direct hoogwaardige 3D-uitvoer vanuit de gegenereerde views. Onze nieuwe methode, IM-3D, reduceert het aantal evaluaties van het 2D-generatornetwerk met 10-100x, wat resulteert in een veel efficiëntere pipeline, betere kwaliteit, minder geometrische inconsistenties en een hogere opbrengst van bruikbare 3D-assets.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models
trained on billions of images. They use variants of Score Distillation Sampling
(SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation
is to fine-tune the 2D generator to be multi-view aware, which can help
distillation or can be combined with reconstruction networks to output 3D
objects directly. In this paper, we further explore the design space of
text-to-3D models. We significantly improve multi-view generation by
considering video instead of image generators. Combined with a 3D
reconstruction algorithm which, by using Gaussian splatting, can optimize a
robust image-based loss, we directly produce high-quality 3D outputs from the
generated views. Our new method, IM-3D, reduces the number of evaluations of
the 2D generator network 10-100x, resulting in a much more efficient pipeline,
better quality, fewer geometric inconsistencies, and higher yield of usable 3D
assets.