Digitalização 3D de Humanos a partir de uma Única Imagem com Difusão Guiada por Forma
Single-Image 3D Human Digitization with Shape-Guided Diffusion
November 15, 2023
Autores: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI
Resumo
Apresentamos uma abordagem para gerar uma visão de 360 graus de uma pessoa com uma aparência consistente e de alta resolução a partir de uma única imagem de entrada. O NeRF e suas variantes geralmente exigem vídeos ou imagens de diferentes pontos de vista. A maioria das abordagens existentes que utilizam entrada monocromática depende de varreduras 3D de verdade terrestre para supervisão ou carece de consistência 3D. Embora modelos generativos 3D recentes mostrem potencial para a digitalização consistente de humanos em 3D, essas abordagens não generalizam bem para diversas aparências de roupas, e os resultados carecem de fotorrealismo. Diferentemente do trabalho existente, utilizamos modelos de difusão 2D de alta capacidade pré-treinados para tarefas gerais de síntese de imagens como um prior de aparência para humanos vestidos. Para alcançar melhor consistência 3D enquanto mantemos a identidade da entrada, sintetizamos progressivamente múltiplas visões do humano na imagem de entrada, preenchendo regiões ausentes com difusão guiada por forma condicionada em silhueta e normal de superfície. Em seguida, fundimos essas imagens sintetizadas de múltiplas visões por meio de renderização inversa para obter uma malha 3D totalmente texturizada e de alta resolução da pessoa em questão. Experimentos mostram que nossa abordagem supera métodos anteriores e alcança uma síntese fotorrealista de 360 graus de uma ampla gama de humanos vestidos com texturas complexas a partir de uma única imagem.
English
We present an approach to generate a 360-degree view of a person with a
consistent, high-resolution appearance from a single input image. NeRF and its
variants typically require videos or images from different viewpoints. Most
existing approaches taking monocular input either rely on ground-truth 3D scans
for supervision or lack 3D consistency. While recent 3D generative models show
promise of 3D consistent human digitization, these approaches do not generalize
well to diverse clothing appearances, and the results lack photorealism. Unlike
existing work, we utilize high-capacity 2D diffusion models pretrained for
general image synthesis tasks as an appearance prior of clothed humans. To
achieve better 3D consistency while retaining the input identity, we
progressively synthesize multiple views of the human in the input image by
inpainting missing regions with shape-guided diffusion conditioned on
silhouette and surface normal. We then fuse these synthesized multi-view images
via inverse rendering to obtain a fully textured high-resolution 3D mesh of the
given person. Experiments show that our approach outperforms prior methods and
achieves photorealistic 360-degree synthesis of a wide range of clothed humans
with complex textures from a single image.