BeyondScene: Geração de Cenas Centradas no Humano com Maior Resolução Usando Difusão Pré-treinada
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
April 6, 2024
Autores: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
cs.AI
Resumo
Gerar cenas centradas em humanos com maior resolução, detalhes e controles
continua sendo um desafio para os modelos de difusão de texto para imagem existentes. Esse desafio
decorre do tamanho limitado das imagens de treinamento, da capacidade do codificador de texto (tokens limitados)
e da dificuldade inerente de gerar cenas complexas envolvendo múltiplos
humanos. Embora os métodos atuais tenham tentado abordar apenas o limite de tamanho do treinamento,
eles frequentemente resultaram em cenas centradas em humanos com artefatos graves. Propomos
o BeyondScene, uma estrutura inovadora que supera as limitações anteriores, gerando
cenas centradas em humanos com resolução superior (acima de 8K) e uma correspondência excepcional
entre texto e imagem, além de naturalidade, utilizando modelos de difusão pré-treinados existentes. O BeyondScene emprega uma abordagem
estagiada e hierárquica para inicialmente gerar uma imagem base detalhada, focando em elementos cruciais na criação
de instâncias para múltiplos humanos e descrições detalhadas além do limite de tokens do
modelo de difusão, e então converter de forma contínua a imagem base em uma
saída de maior resolução, excedendo o tamanho das imagens de treinamento e incorporando
detalhes cientes do texto e das instâncias por meio do nosso novo processo de ampliação hierárquica
consciente de instâncias, que consiste na nossa proposta de difusão direta com injeção de alta frequência
e difusão conjunta adaptativa. O BeyondScene supera os métodos existentes em termos de correspondência
com descrições textuais detalhadas e naturalidade, abrindo caminho para aplicações avançadas na criação
de cenas centradas em humanos com maior resolução, além da capacidade dos modelos de difusão pré-treinados,
sem a necessidade de um retreinamento custoso. Página do projeto:
https://janeyeon.github.io/beyond-scene.
English
Generating higher-resolution human-centric scenes with details and controls
remains a challenge for existing text-to-image diffusion models. This challenge
stems from limited training image size, text encoder capacity (limited tokens),
and the inherent difficulty of generating complex scenes involving multiple
humans. While current methods attempted to address training size limit only,
they often yielded human-centric scenes with severe artifacts. We propose
BeyondScene, a novel framework that overcomes prior limitations, generating
exquisite higher-resolution (over 8K) human-centric scenes with exceptional
text-image correspondence and naturalness using existing pretrained diffusion
models. BeyondScene employs a staged and hierarchical approach to initially
generate a detailed base image focusing on crucial elements in instance
creation for multiple humans and detailed descriptions beyond token limit of
diffusion model, and then to seamlessly convert the base image to a
higher-resolution output, exceeding training image size and incorporating
details aware of text and instances via our novel instance-aware hierarchical
enlargement process that consists of our proposed high-frequency injected
forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing
methods in terms of correspondence with detailed text descriptions and
naturalness, paving the way for advanced applications in higher-resolution
human-centric scene creation beyond the capacity of pretrained diffusion models
without costly retraining. Project page:
https://janeyeon.github.io/beyond-scene.