BeyondScene: Hogere-resolutie mensgerichte scènegeneratie met voorgetrainde diffusie
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
April 6, 2024
Auteurs: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
cs.AI
Samenvatting
Het genereren van hogere-resolutie mensgerichte scènes met details en controle blijft een uitdaging voor bestaande tekst-naar-beeld diffusiemodellen. Deze uitdaging komt voort uit de beperkte grootte van de trainingsafbeeldingen, de capaciteit van de tekstencoder (beperkte tokens), en de inherente moeilijkheid van het genereren van complexe scènes met meerdere mensen. Hoewel huidige methoden alleen de beperking van de trainingsgrootte hebben geprobeerd aan te pakken, resulteerden ze vaak in mensgerichte scènes met ernstige artefacten. Wij stellen BeyondScene voor, een nieuw raamwerk dat de eerdere beperkingen overwint en prachtige hogere-resolutie (meer dan 8K) mensgerichte scènes genereert met uitzonderlijke tekst-beeld correspondentie en natuurlijkheid, gebruikmakend van bestaande voorgetrainde diffusiemodellen. BeyondScene gebruikt een gefaseerde en hiërarchische aanpak om eerst een gedetailleerde basisafbeelding te genereren die zich richt op cruciale elementen in het creëren van instanties voor meerdere mensen en gedetailleerde beschrijvingen die verder gaan dan het tokenlimiet van het diffusiemodel, en vervolgens om de basisafbeelding naadloos om te zetten naar een hogere-resolutie uitvoer, die de grootte van de trainingsafbeelding overschrijdt en details incorporeert die rekening houden met tekst en instanties via ons nieuwe instantiebewuste hiërarchische vergrotingsproces dat bestaat uit onze voorgestelde hoogfrequente geïnjecteerde voorwaartse diffusie en adaptieve gezamenlijke diffusie. BeyondScene overtreft bestaande methoden wat betreft correspondentie met gedetailleerde tekstbeschrijvingen en natuurlijkheid, en baant zo de weg voor geavanceerde toepassingen in het creëren van hogere-resolutie mensgerichte scènes die verder gaan dan de capaciteit van voorgetrainde diffusiemodellen zonder kostbare hertraining. Projectpagina: https://janeyeon.github.io/beyond-scene.
English
Generating higher-resolution human-centric scenes with details and controls
remains a challenge for existing text-to-image diffusion models. This challenge
stems from limited training image size, text encoder capacity (limited tokens),
and the inherent difficulty of generating complex scenes involving multiple
humans. While current methods attempted to address training size limit only,
they often yielded human-centric scenes with severe artifacts. We propose
BeyondScene, a novel framework that overcomes prior limitations, generating
exquisite higher-resolution (over 8K) human-centric scenes with exceptional
text-image correspondence and naturalness using existing pretrained diffusion
models. BeyondScene employs a staged and hierarchical approach to initially
generate a detailed base image focusing on crucial elements in instance
creation for multiple humans and detailed descriptions beyond token limit of
diffusion model, and then to seamlessly convert the base image to a
higher-resolution output, exceeding training image size and incorporating
details aware of text and instances via our novel instance-aware hierarchical
enlargement process that consists of our proposed high-frequency injected
forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing
methods in terms of correspondence with detailed text descriptions and
naturalness, paving the way for advanced applications in higher-resolution
human-centric scene creation beyond the capacity of pretrained diffusion models
without costly retraining. Project page:
https://janeyeon.github.io/beyond-scene.