IM-3D: Diffusione e Ricostruzione Iterativa Multivista per la Generazione di Modelli 3D di Alta Qualità

Abstract

La maggior parte dei generatori di testo-3D si basano su modelli preesistenti di testo-immagine addestrati su miliardi di immagini. Utilizzano varianti del metodo Score Distillation Sampling (SDS), che è lento, piuttosto instabile e soggetto alla comparsa di artefatti. Una possibile soluzione è quella di ottimizzare il generatore 2D per renderlo consapevole delle viste multiple, il che può migliorare il processo di distillazione o essere combinato con reti di ricostruzione per produrre direttamente oggetti 3D. In questo articolo, esploriamo ulteriormente lo spazio di progettazione dei modelli testo-3D. Miglioriamo significativamente la generazione di viste multiple considerando generatori di video anziché di immagini. Combinando questo approccio con un algoritmo di ricostruzione 3D che, utilizzando lo splatting gaussiano, può ottimizzare una robusta funzione di perdita basata sulle immagini, produciamo direttamente output 3D di alta qualità a partire dalle viste generate. Il nostro nuovo metodo, IM-3D, riduce il numero di valutazioni della rete generatrice 2D di 10-100 volte, risultando in una pipeline molto più efficiente, una qualità migliore, meno inconsistenze geometriche e una resa più elevata di asset 3D utilizzabili.

English

Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.

IM-3D: Diffusione e Ricostruzione Iterativa Multivista per la Generazione di Modelli 3D di Alta Qualità

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Abstract

Support