BeyondScene: Generierung von Szenen mit höherer Auflösung und Fokus auf Menschen mithilfe vortrainierter Diffusion

Zusammenfassung

Die Generierung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung und mit Kontrolle stellt nach wie vor eine Herausforderung für bestehende Text-zu-Bild-Diffusionsmodelle dar. Diese Herausforderung resultiert aus der begrenzten Größe der Trainingsbilder, der Kapazität des Textencoders (begrenzte Tokens) und der inhärenten Schwierigkeit, komplexe Szenen mit mehreren Menschen zu generieren. Während aktuelle Methoden versuchten, nur die Grenze der Trainingsgröße zu bewältigen, führten sie oft zu Szenen mit menschlichem Fokus, die schwerwiegende Artefakte aufwiesen. Wir schlagen BeyondScene vor, ein neuartiges Framework, das frühere Einschränkungen überwindet, um exquisite detailreiche Szenen mit menschlichem Fokus in höherer Auflösung (über 8K) mit außergewöhnlicher Text-Bild-Korrespondenz und Natürlichkeit mithilfe bestehender vortrainierter Diffusionsmodelle zu generieren. BeyondScene verwendet einen gestuften und hierarchischen Ansatz, um zunächst ein detailliertes Basismodell zu generieren, das sich auf wichtige Elemente bei der Instanzerstellung für mehrere Menschen konzentriert und detaillierte Beschreibungen über die Token-Grenze des Diffusionsmodells hinaus ermöglicht, und dann das Basismodell nahtlos in eine höhere Auflösung umzuwandeln, die die Größe der Trainingsbilder übersteigt und Details berücksichtigt, die sich auf Texte und Instanzen beziehen, mithilfe unseres neuartigen instanzbewussten hierarchischen Vergrößerungsprozesses, der aus unserem vorgeschlagenen hochfrequenten injizierten Vorwärtsdiffusions- und adaptiven gemeinsamen Diffusionsverfahren besteht. BeyondScene übertrifft bestehende Methoden hinsichtlich der Korrespondenz mit detaillierten Textbeschreibungen und Natürlichkeit und ebnet den Weg für fortgeschrittene Anwendungen in der Erstellung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung, die über die Kapazität vortrainierter Diffusionsmodelle hinausgehen, ohne aufwändiges Neutraining. Projektseite: https://janeyeon.github.io/beyond-scene.

English

Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.

BeyondScene: Generierung von Szenen mit höherer Auflösung und Fokus auf Menschen mithilfe vortrainierter Diffusion

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

Zusammenfassung

Support