HyperHuman: 잠재 구조 확산을 통한 초현실적 인간 생성
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
October 12, 2023
저자: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
cs.AI
초록
대규모 텍스트-이미지 모델에서의 상당한 발전에도 불구하고, 초현실적인 인간 이미지 생성을 달성하는 것은 여전히 바람직하지만 해결되지 않은 과제로 남아 있습니다. Stable Diffusion과 DALL-E 2와 같은 기존 모델들은 종종 일관성 없는 부분이나 부자연스러운 자세를 가진 인간 이미지를 생성하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리의 핵심 통찰은 인간 이미지가 기본적으로 여러 세분화 수준에서 구조적이라는 것입니다. 이는 거친 수준의 신체 골격에서부터 세밀한 공간 기하학에 이르기까지 다양합니다. 따라서, 명시적인 외관과 잠재적 구조 간의 이러한 상관관계를 하나의 모델에서 포착하는 것은 일관적이고 자연스러운 인간 이미지를 생성하는 데 필수적입니다. 이를 위해, 우리는 고도의 현실성과 다양한 레이아웃을 가진 야외 인간 이미지를 생성하는 통합 프레임워크인 HyperHuman을 제안합니다. 구체적으로, 1) 먼저 인간 포즈, 깊이, 표면 법선과 같은 포괄적인 주석이 포함된 340M 이미지로 구성된 대규모 인간 중심 데이터셋인 HumanVerse를 구축합니다. 2) 다음, 합성된 RGB 이미지와 함께 깊이와 표면 법선을 동시에 노이즈 제거하는 Latent Structural Diffusion Model을 제안합니다. 우리의 모델은 이미지 외관, 공간 관계, 기하학의 공동 학습을 통합 네트워크에서 강제하며, 모델의 각 분기는 구조적 인식과 질감의 풍부함을 서로 보완합니다. 3) 마지막으로, 시각적 품질을 더욱 향상시키기 위해, 더 높은 해상도의 세부 생성을 위해 예측된 조건을 구성하는 Structure-Guided Refiner를 제안합니다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 시나리오에서 초현실적인 인간 이미지를 생성하며 최첨단 성능을 달성함을 입증합니다. 프로젝트 페이지: https://snap-research.github.io/HyperHuman/
English
Despite significant advances in large-scale text-to-image models, achieving
hyper-realistic human image generation remains a desirable yet unsolved task.
Existing models like Stable Diffusion and DALL-E 2 tend to generate human
images with incoherent parts or unnatural poses. To tackle these challenges,
our key insight is that human image is inherently structural over multiple
granularities, from the coarse-level body skeleton to fine-grained spatial
geometry. Therefore, capturing such correlations between the explicit
appearance and latent structure in one model is essential to generate coherent
and natural human images. To this end, we propose a unified framework,
HyperHuman, that generates in-the-wild human images of high realism and diverse
layouts. Specifically, 1) we first build a large-scale human-centric dataset,
named HumanVerse, which consists of 340M images with comprehensive annotations
like human pose, depth, and surface normal. 2) Next, we propose a Latent
Structural Diffusion Model that simultaneously denoises the depth and surface
normal along with the synthesized RGB image. Our model enforces the joint
learning of image appearance, spatial relationship, and geometry in a unified
network, where each branch in the model complements to each other with both
structural awareness and textural richness. 3) Finally, to further boost the
visual quality, we propose a Structure-Guided Refiner to compose the predicted
conditions for more detailed generation of higher resolution. Extensive
experiments demonstrate that our framework yields the state-of-the-art
performance, generating hyper-realistic human images under diverse scenarios.
Project Page: https://snap-research.github.io/HyperHuman/