BeyondScene: Generierung von Szenen mit höherer Auflösung und Fokus auf Menschen mithilfe vortrainierter Diffusion
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
April 6, 2024
Autoren: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
cs.AI
Zusammenfassung
Die Generierung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung und mit Kontrolle stellt nach wie vor eine Herausforderung für bestehende Text-zu-Bild-Diffusionsmodelle dar. Diese Herausforderung resultiert aus der begrenzten Größe der Trainingsbilder, der Kapazität des Textencoders (begrenzte Tokens) und der inhärenten Schwierigkeit, komplexe Szenen mit mehreren Menschen zu generieren. Während aktuelle Methoden versuchten, nur die Grenze der Trainingsgröße zu bewältigen, führten sie oft zu Szenen mit menschlichem Fokus, die schwerwiegende Artefakte aufwiesen. Wir schlagen BeyondScene vor, ein neuartiges Framework, das frühere Einschränkungen überwindet, um exquisite detailreiche Szenen mit menschlichem Fokus in höherer Auflösung (über 8K) mit außergewöhnlicher Text-Bild-Korrespondenz und Natürlichkeit mithilfe bestehender vortrainierter Diffusionsmodelle zu generieren. BeyondScene verwendet einen gestuften und hierarchischen Ansatz, um zunächst ein detailliertes Basismodell zu generieren, das sich auf wichtige Elemente bei der Instanzerstellung für mehrere Menschen konzentriert und detaillierte Beschreibungen über die Token-Grenze des Diffusionsmodells hinaus ermöglicht, und dann das Basismodell nahtlos in eine höhere Auflösung umzuwandeln, die die Größe der Trainingsbilder übersteigt und Details berücksichtigt, die sich auf Texte und Instanzen beziehen, mithilfe unseres neuartigen instanzbewussten hierarchischen Vergrößerungsprozesses, der aus unserem vorgeschlagenen hochfrequenten injizierten Vorwärtsdiffusions- und adaptiven gemeinsamen Diffusionsverfahren besteht. BeyondScene übertrifft bestehende Methoden hinsichtlich der Korrespondenz mit detaillierten Textbeschreibungen und Natürlichkeit und ebnet den Weg für fortgeschrittene Anwendungen in der Erstellung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung, die über die Kapazität vortrainierter Diffusionsmodelle hinausgehen, ohne aufwändiges Neutraining. Projektseite: https://janeyeon.github.io/beyond-scene.
English
Generating higher-resolution human-centric scenes with details and controls
remains a challenge for existing text-to-image diffusion models. This challenge
stems from limited training image size, text encoder capacity (limited tokens),
and the inherent difficulty of generating complex scenes involving multiple
humans. While current methods attempted to address training size limit only,
they often yielded human-centric scenes with severe artifacts. We propose
BeyondScene, a novel framework that overcomes prior limitations, generating
exquisite higher-resolution (over 8K) human-centric scenes with exceptional
text-image correspondence and naturalness using existing pretrained diffusion
models. BeyondScene employs a staged and hierarchical approach to initially
generate a detailed base image focusing on crucial elements in instance
creation for multiple humans and detailed descriptions beyond token limit of
diffusion model, and then to seamlessly convert the base image to a
higher-resolution output, exceeding training image size and incorporating
details aware of text and instances via our novel instance-aware hierarchical
enlargement process that consists of our proposed high-frequency injected
forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing
methods in terms of correspondence with detailed text descriptions and
naturalness, paving the way for advanced applications in higher-resolution
human-centric scene creation beyond the capacity of pretrained diffusion models
without costly retraining. Project page:
https://janeyeon.github.io/beyond-scene.Summary
AI-Generated Summary