Digitalizzazione 3D di esseri umani da singola immagine con diffusione guidata dalla forma
Single-Image 3D Human Digitization with Shape-Guided Diffusion
November 15, 2023
Autori: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI
Abstract
Presentiamo un approccio per generare una vista a 360 gradi di una persona con un aspetto coerente e ad alta risoluzione a partire da una singola immagine in input. NeRF e le sue varianti richiedono tipicamente video o immagini da diversi punti di vista. La maggior parte degli approcci esistenti che utilizzano input monoculare si basano su scansioni 3D di riferimento per la supervisione o mancano di coerenza 3D. Sebbene i recenti modelli generativi 3D mostrino promettenti capacità di digitalizzazione umana con coerenza 3D, questi approcci non generalizzano bene a diverse apparenze di abbigliamento e i risultati mancano di fotorealismo. A differenza del lavoro esistente, utilizziamo modelli di diffusione 2D ad alta capacità pre-addestrati per compiti di sintesi di immagini generali come prior di aspetto per umani vestiti. Per ottenere una migliore coerenza 3D mantenendo l'identità dell'input, sintetizziamo progressivamente più viste della persona nell'immagine di input ricostruendo le regioni mancanti con una diffusione guidata dalla forma, condizionata su silhouette e normale della superficie. Successivamente, fondiamo queste immagini multi-vista sintetizzate tramite rendering inverso per ottenere una mesh 3D completamente texturizzata e ad alta risoluzione della persona data. Gli esperimenti dimostrano che il nostro approccio supera i metodi precedenti e raggiunge una sintesi fotorealistica a 360 gradi di una vasta gamma di umani vestiti con texture complesse a partire da una singola immagine.
English
We present an approach to generate a 360-degree view of a person with a
consistent, high-resolution appearance from a single input image. NeRF and its
variants typically require videos or images from different viewpoints. Most
existing approaches taking monocular input either rely on ground-truth 3D scans
for supervision or lack 3D consistency. While recent 3D generative models show
promise of 3D consistent human digitization, these approaches do not generalize
well to diverse clothing appearances, and the results lack photorealism. Unlike
existing work, we utilize high-capacity 2D diffusion models pretrained for
general image synthesis tasks as an appearance prior of clothed humans. To
achieve better 3D consistency while retaining the input identity, we
progressively synthesize multiple views of the human in the input image by
inpainting missing regions with shape-guided diffusion conditioned on
silhouette and surface normal. We then fuse these synthesized multi-view images
via inverse rendering to obtain a fully textured high-resolution 3D mesh of the
given person. Experiments show that our approach outperforms prior methods and
achieves photorealistic 360-degree synthesis of a wide range of clothed humans
with complex textures from a single image.