HyperHuman : Génération hyper-réaliste d'humains par diffusion structurelle latente
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
October 12, 2023
Auteurs: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
cs.AI
Résumé
Malgré les avancées significatives des modèles de génération d'images à grande échelle à partir de texte, la création d'images humaines hyper-réalistes reste une tâche souhaitée mais non résolue. Les modèles existants comme Stable Diffusion et DALL-E 2 ont tendance à générer des images humaines avec des parties incohérentes ou des poses non naturelles. Pour relever ces défis, notre idée clé est que l'image humaine est intrinsèquement structurée à plusieurs niveaux de granularité, allant du squelette corporel au niveau grossier à la géométrie spatiale fine. Par conséquent, capturer ces corrélations entre l'apparence explicite et la structure latente dans un seul modèle est essentiel pour générer des images humaines cohérentes et naturelles. À cette fin, nous proposons un cadre unifié, HyperHuman, qui génère des images humaines en milieu naturel d'un réalisme élevé et de dispositions variées. Plus précisément, 1) nous construisons d'abord un ensemble de données à grande échelle centré sur l'humain, nommé HumanVerse, qui comprend 340 millions d'images avec des annotations complètes comme la pose humaine, la profondeur et la normale de surface. 2) Ensuite, nous proposons un Modèle de Diffusion Structurelle Latente qui débruite simultanément la profondeur et la normale de surface ainsi que l'image RVB synthétisée. Notre modèle impose l'apprentissage conjoint de l'apparence de l'image, de la relation spatiale et de la géométrie dans un réseau unifié, où chaque branche du modèle se complète mutuellement avec une conscience structurelle et une richesse texturale. 3) Enfin, pour améliorer davantage la qualité visuelle, nous proposons un Raffineur Guidé par la Structure pour composer les conditions prédites afin de générer des détails plus fins à une résolution plus élevée. Des expériences approfondies démontrent que notre cadre offre des performances de pointe, générant des images humaines hyper-réalistes dans divers scénarios. Page du projet : https://snap-research.github.io/HyperHuman/
English
Despite significant advances in large-scale text-to-image models, achieving
hyper-realistic human image generation remains a desirable yet unsolved task.
Existing models like Stable Diffusion and DALL-E 2 tend to generate human
images with incoherent parts or unnatural poses. To tackle these challenges,
our key insight is that human image is inherently structural over multiple
granularities, from the coarse-level body skeleton to fine-grained spatial
geometry. Therefore, capturing such correlations between the explicit
appearance and latent structure in one model is essential to generate coherent
and natural human images. To this end, we propose a unified framework,
HyperHuman, that generates in-the-wild human images of high realism and diverse
layouts. Specifically, 1) we first build a large-scale human-centric dataset,
named HumanVerse, which consists of 340M images with comprehensive annotations
like human pose, depth, and surface normal. 2) Next, we propose a Latent
Structural Diffusion Model that simultaneously denoises the depth and surface
normal along with the synthesized RGB image. Our model enforces the joint
learning of image appearance, spatial relationship, and geometry in a unified
network, where each branch in the model complements to each other with both
structural awareness and textural richness. 3) Finally, to further boost the
visual quality, we propose a Structure-Guided Refiner to compose the predicted
conditions for more detailed generation of higher resolution. Extensive
experiments demonstrate that our framework yields the state-of-the-art
performance, generating hyper-realistic human images under diverse scenarios.
Project Page: https://snap-research.github.io/HyperHuman/