HyperHuman: Hyperrealistische Menselijke Generatie met Latente Structurele Diffusie
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
October 12, 2023
Auteurs: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in grootschalige tekst-naar-beeldmodellen, blijft het genereren van hyperrealistische menselijke afbeeldingen een gewenste maar nog onopgeloste taak. Bestaande modellen zoals Stable Diffusion en DALL-E 2 hebben de neiging om menselijke afbeeldingen te genereren met onsamenhangende delen of onnatuurlijke houdingen. Om deze uitdagingen aan te pakken, is onze belangrijkste inzicht dat menselijke afbeeldingen inherent structureel zijn over meerdere granulariteiten, van het grove lichaamskelet tot fijnmazige ruimtelijke geometrie. Het vastleggen van dergelijke correlaties tussen het expliciete uiterlijk en de latente structuur in één model is daarom essentieel om samenhangende en natuurlijke menselijke afbeeldingen te genereren. Hiertoe stellen we een uniform raamwerk voor, HyperHuman, dat in-the-wild menselijke afbeeldingen genereert met een hoge realiteitsgraad en diverse lay-outs. Specifiek: 1) bouwen we eerst een grootschalige, mensgerichte dataset genaamd HumanVerse, die bestaat uit 340 miljoen afbeeldingen met uitgebreide annotaties zoals menselijke houding, diepte en oppervlaktenormaal. 2) Vervolgens stellen we een Latent Structural Diffusion Model voor dat gelijktijdig de diepte en het oppervlaktenormaal denoiseert samen met de gesynthetiseerde RGB-afbeelding. Ons model dwingt het gezamenlijk leren van beeldverschijning, ruimtelijke relaties en geometrie af in een uniform netwerk, waarbij elke tak in het model elkaar aanvult met zowel structureel bewustzijn als textuurrijkdom. 3) Tot slot stellen we een Structure-Guided Refiner voor om de voorspelde condities samen te stellen voor een gedetailleerdere generatie van hogere resolutie. Uitgebreide experimenten tonen aan dat ons raamwerk de state-of-the-art prestaties levert, waarbij hyperrealistische menselijke afbeeldingen worden gegenereerd onder diverse scenario's. Projectpagina: https://snap-research.github.io/HyperHuman/
English
Despite significant advances in large-scale text-to-image models, achieving
hyper-realistic human image generation remains a desirable yet unsolved task.
Existing models like Stable Diffusion and DALL-E 2 tend to generate human
images with incoherent parts or unnatural poses. To tackle these challenges,
our key insight is that human image is inherently structural over multiple
granularities, from the coarse-level body skeleton to fine-grained spatial
geometry. Therefore, capturing such correlations between the explicit
appearance and latent structure in one model is essential to generate coherent
and natural human images. To this end, we propose a unified framework,
HyperHuman, that generates in-the-wild human images of high realism and diverse
layouts. Specifically, 1) we first build a large-scale human-centric dataset,
named HumanVerse, which consists of 340M images with comprehensive annotations
like human pose, depth, and surface normal. 2) Next, we propose a Latent
Structural Diffusion Model that simultaneously denoises the depth and surface
normal along with the synthesized RGB image. Our model enforces the joint
learning of image appearance, spatial relationship, and geometry in a unified
network, where each branch in the model complements to each other with both
structural awareness and textural richness. 3) Finally, to further boost the
visual quality, we propose a Structure-Guided Refiner to compose the predicted
conditions for more detailed generation of higher resolution. Extensive
experiments demonstrate that our framework yields the state-of-the-art
performance, generating hyper-realistic human images under diverse scenarios.
Project Page: https://snap-research.github.io/HyperHuman/