HyperHuman: Hyperrealistische Menselijke Generatie met Latente Structurele Diffusie

Samenvatting

Ondanks aanzienlijke vooruitgang in grootschalige tekst-naar-beeldmodellen, blijft het genereren van hyperrealistische menselijke afbeeldingen een gewenste maar nog onopgeloste taak. Bestaande modellen zoals Stable Diffusion en DALL-E 2 hebben de neiging om menselijke afbeeldingen te genereren met onsamenhangende delen of onnatuurlijke houdingen. Om deze uitdagingen aan te pakken, is onze belangrijkste inzicht dat menselijke afbeeldingen inherent structureel zijn over meerdere granulariteiten, van het grove lichaamskelet tot fijnmazige ruimtelijke geometrie. Het vastleggen van dergelijke correlaties tussen het expliciete uiterlijk en de latente structuur in één model is daarom essentieel om samenhangende en natuurlijke menselijke afbeeldingen te genereren. Hiertoe stellen we een uniform raamwerk voor, HyperHuman, dat in-the-wild menselijke afbeeldingen genereert met een hoge realiteitsgraad en diverse lay-outs. Specifiek: 1) bouwen we eerst een grootschalige, mensgerichte dataset genaamd HumanVerse, die bestaat uit 340 miljoen afbeeldingen met uitgebreide annotaties zoals menselijke houding, diepte en oppervlaktenormaal. 2) Vervolgens stellen we een Latent Structural Diffusion Model voor dat gelijktijdig de diepte en het oppervlaktenormaal denoiseert samen met de gesynthetiseerde RGB-afbeelding. Ons model dwingt het gezamenlijk leren van beeldverschijning, ruimtelijke relaties en geometrie af in een uniform netwerk, waarbij elke tak in het model elkaar aanvult met zowel structureel bewustzijn als textuurrijkdom. 3) Tot slot stellen we een Structure-Guided Refiner voor om de voorspelde condities samen te stellen voor een gedetailleerdere generatie van hogere resolutie. Uitgebreide experimenten tonen aan dat ons raamwerk de state-of-the-art prestaties levert, waarbij hyperrealistische menselijke afbeeldingen worden gegenereerd onder diverse scenario's. Projectpagina: https://snap-research.github.io/HyperHuman/

English

Despite significant advances in large-scale text-to-image models, achieving hyper-realistic human image generation remains a desirable yet unsolved task. Existing models like Stable Diffusion and DALL-E 2 tend to generate human images with incoherent parts or unnatural poses. To tackle these challenges, our key insight is that human image is inherently structural over multiple granularities, from the coarse-level body skeleton to fine-grained spatial geometry. Therefore, capturing such correlations between the explicit appearance and latent structure in one model is essential to generate coherent and natural human images. To this end, we propose a unified framework, HyperHuman, that generates in-the-wild human images of high realism and diverse layouts. Specifically, 1) we first build a large-scale human-centric dataset, named HumanVerse, which consists of 340M images with comprehensive annotations like human pose, depth, and surface normal. 2) Next, we propose a Latent Structural Diffusion Model that simultaneously denoises the depth and surface normal along with the synthesized RGB image. Our model enforces the joint learning of image appearance, spatial relationship, and geometry in a unified network, where each branch in the model complements to each other with both structural awareness and textural richness. 3) Finally, to further boost the visual quality, we propose a Structure-Guided Refiner to compose the predicted conditions for more detailed generation of higher resolution. Extensive experiments demonstrate that our framework yields the state-of-the-art performance, generating hyper-realistic human images under diverse scenarios. Project Page: https://snap-research.github.io/HyperHuman/

HyperHuman: Hyperrealistische Menselijke Generatie met Latente Structurele Diffusie

HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

Samenvatting

Support