Enkelvoudige Afbeelding 3D Menselijke Digitalisering met Vormgeleide Diffusie
Single-Image 3D Human Digitization with Shape-Guided Diffusion
November 15, 2023
Auteurs: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI
Samenvatting
We presenteren een aanpak om een 360-graden beeld van een persoon te genereren met een consistent, hoogwaardig uiterlijk vanuit een enkele invoerafbeelding. NeRF en zijn varianten vereisen doorgaans video's of afbeeldingen vanuit verschillende gezichtspunten. De meeste bestaande benaderingen die gebruikmaken van monoscopische invoer, vertrouwen op grondwaarheid 3D-scans voor supervisie of missen 3D-consistentie. Hoewel recente 3D-generatieve modellen belofte tonen voor consistente 3D-digitalisering van mensen, generaliseren deze benaderingen niet goed naar diverse kledingstijlen en ontbreekt het de resultaten aan fotorealisme. In tegenstelling tot bestaand werk maken wij gebruik van hoogwaardige 2D-diffusiemodellen die vooraf zijn getraind voor algemene beeld-synthesetaken, als een uiterlijk-prior voor geklede mensen. Om een betere 3D-consistentie te bereiken terwijl de identiteit van de invoer behouden blijft, synthetiseren we geleidelijk meerdere aanzichten van de persoon in de invoerafbeelding door ontbrekende gebieden in te vullen met vormgeleide diffusie, geconditioneerd op silhouet en oppervlaktenormaal. Vervolgens fuseren we deze gesynthetiseerde multi-view afbeeldingen via inverse rendering om een volledig getextureerd, hoogwaardig 3D-mesh van de betreffende persoon te verkrijgen. Experimenten tonen aan dat onze aanpak eerdere methoden overtreft en fotorealistische 360-graden synthese bereikt van een breed scala aan geklede mensen met complexe texturen vanuit een enkele afbeelding.
English
We present an approach to generate a 360-degree view of a person with a
consistent, high-resolution appearance from a single input image. NeRF and its
variants typically require videos or images from different viewpoints. Most
existing approaches taking monocular input either rely on ground-truth 3D scans
for supervision or lack 3D consistency. While recent 3D generative models show
promise of 3D consistent human digitization, these approaches do not generalize
well to diverse clothing appearances, and the results lack photorealism. Unlike
existing work, we utilize high-capacity 2D diffusion models pretrained for
general image synthesis tasks as an appearance prior of clothed humans. To
achieve better 3D consistency while retaining the input identity, we
progressively synthesize multiple views of the human in the input image by
inpainting missing regions with shape-guided diffusion conditioned on
silhouette and surface normal. We then fuse these synthesized multi-view images
via inverse rendering to obtain a fully textured high-resolution 3D mesh of the
given person. Experiments show that our approach outperforms prior methods and
achieves photorealistic 360-degree synthesis of a wide range of clothed humans
with complex textures from a single image.