HyperHuman: 潜在構造拡散による超現実的な人間生成
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
October 12, 2023
著者: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
cs.AI
要旨
大規模なテキストから画像への生成モデルにおいて大きな進展が見られるにもかかわらず、超リアルな人間画像の生成は依然として望まれるが未解決の課題である。Stable DiffusionやDALL-E 2などの既存のモデルは、不整合な部分や不自然なポーズを持つ人間画像を生成しがちである。これらの課題に取り組むため、我々の重要な洞察は、人間の画像が本質的に複数の粒度レベルで構造的であるということである。粗いレベルでの身体の骨格から細かい空間的ジオメトリまで、明示的な外観と潜在的な構造の間の相関を捉えることが、一貫性があり自然な人間画像を生成するために不可欠である。この目的のために、我々はHyperHumanという統一フレームワークを提案し、高リアルさと多様なレイアウトを持つ野外の人間画像を生成する。具体的には、1) まず、人間のポーズ、深度、表面法線などの包括的なアノテーションを持つ3億4千万枚の画像からなる大規模な人間中心のデータセット、HumanVerseを構築する。2) 次に、合成されたRGB画像とともに深度と表面法線を同時にノイズ除去するLatent Structural Diffusion Modelを提案する。我々のモデルは、画像の外観、空間的関係、ジオメトリを統一ネットワークで共同学習し、モデル内の各ブランチが構造的認識とテクスチャの豊かさを相互に補完する。3) 最後に、視覚品質をさらに向上させるために、より詳細な高解像度生成のための予測条件を構成するStructure-Guided Refinerを提案する。広範な実験により、我々のフレームワークが多様なシナリオ下で超リアルな人間画像を生成する最先端の性能を発揮することが示された。プロジェクトページ: https://snap-research.github.io/HyperHuman/
English
Despite significant advances in large-scale text-to-image models, achieving
hyper-realistic human image generation remains a desirable yet unsolved task.
Existing models like Stable Diffusion and DALL-E 2 tend to generate human
images with incoherent parts or unnatural poses. To tackle these challenges,
our key insight is that human image is inherently structural over multiple
granularities, from the coarse-level body skeleton to fine-grained spatial
geometry. Therefore, capturing such correlations between the explicit
appearance and latent structure in one model is essential to generate coherent
and natural human images. To this end, we propose a unified framework,
HyperHuman, that generates in-the-wild human images of high realism and diverse
layouts. Specifically, 1) we first build a large-scale human-centric dataset,
named HumanVerse, which consists of 340M images with comprehensive annotations
like human pose, depth, and surface normal. 2) Next, we propose a Latent
Structural Diffusion Model that simultaneously denoises the depth and surface
normal along with the synthesized RGB image. Our model enforces the joint
learning of image appearance, spatial relationship, and geometry in a unified
network, where each branch in the model complements to each other with both
structural awareness and textural richness. 3) Finally, to further boost the
visual quality, we propose a Structure-Guided Refiner to compose the predicted
conditions for more detailed generation of higher resolution. Extensive
experiments demonstrate that our framework yields the state-of-the-art
performance, generating hyper-realistic human images under diverse scenarios.
Project Page: https://snap-research.github.io/HyperHuman/