Adaptador de Difusión 3D Genérico Utilizando Edición Controlada de Múltiples Vistas
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Autores: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Resumen
La síntesis de objetos 3D de dominio abierto ha estado rezagada en comparación con la síntesis de imágenes debido a la limitación de datos y a una mayor complejidad computacional. Para cerrar esta brecha, trabajos recientes han investigado la difusión multi-vista, pero a menudo presentan deficiencias en la consistencia 3D, la calidad visual o la eficiencia. Este artículo propone MVEdit, que funciona como una contraparte 3D de SDEdit, empleando muestreo ancestral para desruir conjuntamente imágenes multi-vista y generar mallas texturizadas de alta calidad. Basado en modelos de difusión 2D preexistentes, MVEdit logra consistencia 3D mediante un Adaptador 3D que no requiere entrenamiento, el cual eleva las vistas 2D del último paso temporal a una representación 3D coherente, y luego condiciona las vistas 2D del siguiente paso temporal utilizando vistas renderizadas, sin comprometer la calidad visual. Con un tiempo de inferencia de solo 2-5 minutos, este marco logra un mejor equilibrio entre calidad y velocidad que la destilación de puntuaciones. MVEdit es altamente versátil y extensible, con una amplia gama de aplicaciones que incluyen la generación de texto/imagen-a-3D, edición 3D-a-3D y síntesis de texturas de alta calidad. En particular, las evaluaciones demuestran un rendimiento de vanguardia tanto en tareas de imagen-a-3D como en la generación de texturas guiada por texto. Además, introducimos un método para ajustar modelos de difusión latente 2D en pequeños conjuntos de datos 3D con recursos limitados, permitiendo una inicialización rápida de texto-a-3D en baja resolución.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.Summary
AI-Generated Summary