IM-3D: Diffusione e Ricostruzione Iterativa Multivista per la Generazione di Modelli 3D di Alta Qualità
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation
February 13, 2024
Autori: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI
Abstract
La maggior parte dei generatori di testo-3D si basano su modelli preesistenti di testo-immagine addestrati su miliardi di immagini. Utilizzano varianti del metodo Score Distillation Sampling (SDS), che è lento, piuttosto instabile e soggetto alla comparsa di artefatti. Una possibile soluzione è quella di ottimizzare il generatore 2D per renderlo consapevole delle viste multiple, il che può migliorare il processo di distillazione o essere combinato con reti di ricostruzione per produrre direttamente oggetti 3D. In questo articolo, esploriamo ulteriormente lo spazio di progettazione dei modelli testo-3D. Miglioriamo significativamente la generazione di viste multiple considerando generatori di video anziché di immagini. Combinando questo approccio con un algoritmo di ricostruzione 3D che, utilizzando lo splatting gaussiano, può ottimizzare una robusta funzione di perdita basata sulle immagini, produciamo direttamente output 3D di alta qualità a partire dalle viste generate. Il nostro nuovo metodo, IM-3D, riduce il numero di valutazioni della rete generatrice 2D di 10-100 volte, risultando in una pipeline molto più efficiente, una qualità migliore, meno inconsistenze geometriche e una resa più elevata di asset 3D utilizzabili.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models
trained on billions of images. They use variants of Score Distillation Sampling
(SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation
is to fine-tune the 2D generator to be multi-view aware, which can help
distillation or can be combined with reconstruction networks to output 3D
objects directly. In this paper, we further explore the design space of
text-to-3D models. We significantly improve multi-view generation by
considering video instead of image generators. Combined with a 3D
reconstruction algorithm which, by using Gaussian splatting, can optimize a
robust image-based loss, we directly produce high-quality 3D outputs from the
generated views. Our new method, IM-3D, reduces the number of evaluations of
the 2D generator network 10-100x, resulting in a much more efficient pipeline,
better quality, fewer geometric inconsistencies, and higher yield of usable 3D
assets.