Digitalización 3D de humanos a partir de una sola imagen con difusión guiada por forma
Single-Image 3D Human Digitization with Shape-Guided Diffusion
November 15, 2023
Autores: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI
Resumen
Presentamos un enfoque para generar una vista de 360 grados de una persona con una apariencia consistente y de alta resolución a partir de una única imagen de entrada. NeRF y sus variantes suelen requerir videos o imágenes desde diferentes puntos de vista. La mayoría de los enfoques existentes que utilizan entradas monoculares dependen de escaneos 3D de referencia para supervisión o carecen de consistencia 3D. Si bien los modelos generativos 3D recientes muestran potencial para la digitalización humana con consistencia 3D, estos enfoques no generalizan bien a diversas apariencias de ropa, y los resultados carecen de fotorrealismo. A diferencia del trabajo existente, utilizamos modelos de difusión 2D de alta capacidad preentrenados para tareas generales de síntesis de imágenes como un prior de apariencia para humanos vestidos. Para lograr una mejor consistencia 3D mientras se conserva la identidad de la entrada, sintetizamos progresivamente múltiples vistas del humano en la imagen de entrada mediante la reconstrucción de regiones faltantes con difusión guiada por la forma, condicionada en la silueta y la normal de la superficie. Luego, fusionamos estas imágenes sintetizadas de múltiples vistas mediante renderizado inverso para obtener una malla 3D completamente texturizada y de alta resolución de la persona dada. Los experimentos muestran que nuestro enfoque supera a los métodos anteriores y logra una síntesis fotorrealista de 360 grados de una amplia gama de humanos vestidos con texturas complejas a partir de una sola imagen.
English
We present an approach to generate a 360-degree view of a person with a
consistent, high-resolution appearance from a single input image. NeRF and its
variants typically require videos or images from different viewpoints. Most
existing approaches taking monocular input either rely on ground-truth 3D scans
for supervision or lack 3D consistency. While recent 3D generative models show
promise of 3D consistent human digitization, these approaches do not generalize
well to diverse clothing appearances, and the results lack photorealism. Unlike
existing work, we utilize high-capacity 2D diffusion models pretrained for
general image synthesis tasks as an appearance prior of clothed humans. To
achieve better 3D consistency while retaining the input identity, we
progressively synthesize multiple views of the human in the input image by
inpainting missing regions with shape-guided diffusion conditioned on
silhouette and surface normal. We then fuse these synthesized multi-view images
via inverse rendering to obtain a fully textured high-resolution 3D mesh of the
given person. Experiments show that our approach outperforms prior methods and
achieves photorealistic 360-degree synthesis of a wide range of clothed humans
with complex textures from a single image.