Digitalizzazione 3D di esseri umani da singola immagine con diffusione guidata dalla forma

Abstract

Presentiamo un approccio per generare una vista a 360 gradi di una persona con un aspetto coerente e ad alta risoluzione a partire da una singola immagine in input. NeRF e le sue varianti richiedono tipicamente video o immagini da diversi punti di vista. La maggior parte degli approcci esistenti che utilizzano input monoculare si basano su scansioni 3D di riferimento per la supervisione o mancano di coerenza 3D. Sebbene i recenti modelli generativi 3D mostrino promettenti capacità di digitalizzazione umana con coerenza 3D, questi approcci non generalizzano bene a diverse apparenze di abbigliamento e i risultati mancano di fotorealismo. A differenza del lavoro esistente, utilizziamo modelli di diffusione 2D ad alta capacità pre-addestrati per compiti di sintesi di immagini generali come prior di aspetto per umani vestiti. Per ottenere una migliore coerenza 3D mantenendo l'identità dell'input, sintetizziamo progressivamente più viste della persona nell'immagine di input ricostruendo le regioni mancanti con una diffusione guidata dalla forma, condizionata su silhouette e normale della superficie. Successivamente, fondiamo queste immagini multi-vista sintetizzate tramite rendering inverso per ottenere una mesh 3D completamente texturizzata e ad alta risoluzione della persona data. Gli esperimenti dimostrano che il nostro approccio supera i metodi precedenti e raggiunge una sintesi fotorealistica a 360 gradi di una vasta gamma di umani vestiti con texture complesse a partire da una singola immagine.

English

We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image.

Digitalizzazione 3D di esseri umani da singola immagine con diffusione guidata dalla forma

Single-Image 3D Human Digitization with Shape-Guided Diffusion

Abstract

Support