Digitalización 3D de humanos a partir de una sola imagen con difusión guiada por forma

Resumen

Presentamos un enfoque para generar una vista de 360 grados de una persona con una apariencia consistente y de alta resolución a partir de una única imagen de entrada. NeRF y sus variantes suelen requerir videos o imágenes desde diferentes puntos de vista. La mayoría de los enfoques existentes que utilizan entradas monoculares dependen de escaneos 3D de referencia para supervisión o carecen de consistencia 3D. Si bien los modelos generativos 3D recientes muestran potencial para la digitalización humana con consistencia 3D, estos enfoques no generalizan bien a diversas apariencias de ropa, y los resultados carecen de fotorrealismo. A diferencia del trabajo existente, utilizamos modelos de difusión 2D de alta capacidad preentrenados para tareas generales de síntesis de imágenes como un prior de apariencia para humanos vestidos. Para lograr una mejor consistencia 3D mientras se conserva la identidad de la entrada, sintetizamos progresivamente múltiples vistas del humano en la imagen de entrada mediante la reconstrucción de regiones faltantes con difusión guiada por la forma, condicionada en la silueta y la normal de la superficie. Luego, fusionamos estas imágenes sintetizadas de múltiples vistas mediante renderizado inverso para obtener una malla 3D completamente texturizada y de alta resolución de la persona dada. Los experimentos muestran que nuestro enfoque supera a los métodos anteriores y logra una síntesis fotorrealista de 360 grados de una amplia gama de humanos vestidos con texturas complejas a partir de una sola imagen.

English

We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image.

Digitalización 3D de humanos a partir de una sola imagen con difusión guiada por forma

Single-Image 3D Human Digitization with Shape-Guided Diffusion

Resumen

Support