ChatPaper.aiChatPaper

HyperHuman: Geração Hiper-realista de Humanos com Difusão Estrutural Latente

HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

October 12, 2023
Autores: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
cs.AI

Resumo

Apesar dos avanços significativos nos modelos de geração de imagens a partir de texto em grande escala, alcançar a geração hiper-realista de imagens humanas continua sendo uma tarefa desejada, mas ainda não resolvida. Modelos existentes como o Stable Diffusion e o DALL-E 2 tendem a gerar imagens humanas com partes incoerentes ou poses não naturais. Para enfrentar esses desafios, nossa principal percepção é que a imagem humana é inerentemente estrutural em múltiplas granularidades, desde o esqueleto corporal em nível grosseiro até a geometria espacial em nível detalhado. Portanto, capturar essas correlações entre a aparência explícita e a estrutura latente em um único modelo é essencial para gerar imagens humanas coerentes e naturais. Para isso, propomos um framework unificado, o HyperHuman, que gera imagens humanas em cenários diversos com alto realismo. Especificamente, 1) primeiro construímos um grande conjunto de dados centrado em humanos, chamado HumanVerse, que consiste em 340 milhões de imagens com anotações abrangentes, como pose humana, profundidade e normal de superfície. 2) Em seguida, propomos um Modelo de Difusão Estrutural Latente que simultaneamente remove ruídos da profundidade e da normal de superfície junto com a imagem RGB sintetizada. Nosso modelo reforça a aprendizagem conjunta da aparência da imagem, da relação espacial e da geometria em uma rede unificada, onde cada ramo do modelo se complementa com consciência estrutural e riqueza textural. 3) Por fim, para aprimorar ainda mais a qualidade visual, propomos um Refinador Guiado por Estrutura para compor as condições previstas para uma geração mais detalhada em resolução mais alta. Experimentos extensivos demonstram que nosso framework alcança o estado da arte, gerando imagens humanas hiper-realistas em diversos cenários. Página do Projeto: https://snap-research.github.io/HyperHuman/
English
Despite significant advances in large-scale text-to-image models, achieving hyper-realistic human image generation remains a desirable yet unsolved task. Existing models like Stable Diffusion and DALL-E 2 tend to generate human images with incoherent parts or unnatural poses. To tackle these challenges, our key insight is that human image is inherently structural over multiple granularities, from the coarse-level body skeleton to fine-grained spatial geometry. Therefore, capturing such correlations between the explicit appearance and latent structure in one model is essential to generate coherent and natural human images. To this end, we propose a unified framework, HyperHuman, that generates in-the-wild human images of high realism and diverse layouts. Specifically, 1) we first build a large-scale human-centric dataset, named HumanVerse, which consists of 340M images with comprehensive annotations like human pose, depth, and surface normal. 2) Next, we propose a Latent Structural Diffusion Model that simultaneously denoises the depth and surface normal along with the synthesized RGB image. Our model enforces the joint learning of image appearance, spatial relationship, and geometry in a unified network, where each branch in the model complements to each other with both structural awareness and textural richness. 3) Finally, to further boost the visual quality, we propose a Structure-Guided Refiner to compose the predicted conditions for more detailed generation of higher resolution. Extensive experiments demonstrate that our framework yields the state-of-the-art performance, generating hyper-realistic human images under diverse scenarios. Project Page: https://snap-research.github.io/HyperHuman/
PDF171December 15, 2024