ChatPaper.aiChatPaper

IM-3D: Difusión y Reconstrucción Iterativa Multivista para la Generación de 3D de Alta Calidad

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

February 13, 2024
Autores: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI

Resumen

La mayoría de los generadores de texto a 3D se basan en modelos preentrenados de texto a imagen que han sido entrenados con miles de millones de imágenes. Utilizan variantes de Score Distillation Sampling (SDS), que es lento, algo inestable y propenso a artefactos. Una mitigación consiste en ajustar el generador 2D para que sea consciente de múltiples vistas, lo que puede ayudar en la destilación o combinarse con redes de reconstrucción para generar objetos 3D directamente. En este artículo, exploramos más a fondo el espacio de diseño de los modelos de texto a 3D. Mejoramos significativamente la generación de múltiples vistas al considerar generadores de video en lugar de generadores de imágenes. Combinado con un algoritmo de reconstrucción 3D que, mediante el uso de splatting gaussiano, puede optimizar una función de pérdida robusta basada en imágenes, producimos directamente salidas 3D de alta calidad a partir de las vistas generadas. Nuestro nuevo método, IM-3D, reduce el número de evaluaciones de la red generadora 2D entre 10 y 100 veces, lo que resulta en una canalización mucho más eficiente, mejor calidad, menos inconsistencias geométricas y un mayor rendimiento de activos 3D utilizables.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.
PDF141December 15, 2024