Repaint123: Generación rápida y de alta calidad de una imagen a 3D con repintado 2D progresivo y controlable
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting
December 20, 2023
Autores: Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan
cs.AI
Resumen
Los métodos recientes de generación 3D a partir de una sola imagen comúnmente adoptan el Muestreo de Distilación de Puntaje (SDS). A pesar de los resultados impresionantes, existen múltiples deficiencias, incluyendo inconsistencia en múltiples vistas, texturas sobresaturadas y demasiado suavizadas, así como una velocidad de generación lenta. Para abordar estas deficiencias, presentamos Repaint123, que busca mitigar el sesgo en múltiples vistas, la degradación de texturas y acelerar el proceso de generación. La idea central es combinar la potente capacidad de generación de imágenes del modelo de difusión 2D y la habilidad de alineación de texturas de la estrategia de repintado para generar imágenes de múltiples vistas de alta calidad con consistencia. Además, proponemos una fuerza de repintado adaptativa basada en la visibilidad para regiones superpuestas, con el fin de mejorar la calidad de las imágenes generadas durante el proceso de repintado. Las imágenes generadas, de alta calidad y consistentes en múltiples vistas, permiten el uso de una simple pérdida de Error Cuadrático Medio (MSE) para la generación rápida de contenido 3D. Realizamos extensos experimentos y demostramos que nuestro método tiene una capacidad superior para generar contenido 3D de alta calidad con consistencia en múltiples vistas y texturas finas en 2 minutos desde cero. El código está disponible en https://github.com/junwuzhang19/repaint123.
English
Recent one image to 3D generation methods commonly adopt Score Distillation
Sampling (SDS). Despite the impressive results, there are multiple deficiencies
including multi-view inconsistency, over-saturated and over-smoothed textures,
as well as the slow generation speed. To address these deficiencies, we present
Repaint123 to alleviate multi-view bias as well as texture degradation and
speed up the generation process. The core idea is to combine the powerful image
generation capability of the 2D diffusion model and the texture alignment
ability of the repainting strategy for generating high-quality multi-view
images with consistency. We further propose visibility-aware adaptive
repainting strength for overlap regions to enhance the generated image quality
in the repainting process. The generated high-quality and multi-view consistent
images enable the use of simple Mean Square Error (MSE) loss for fast 3D
content generation. We conduct extensive experiments and show that our method
has a superior ability to generate high-quality 3D content with multi-view
consistency and fine textures in 2 minutes from scratch. Code is at
https://github.com/junwuzhang19/repaint123.