BeyondScene: Generazione di Scene Centrate sull'Umano ad Alta Risoluzione con Modelli di Diffusione Pre-addestrati

Abstract

Generare scene centrate sull'uomo ad alta risoluzione con dettagli e controlli rimane una sfida per i modelli di diffusione testo-immagine esistenti. Questa sfida deriva dalle dimensioni limitate delle immagini di addestramento, dalla capacità limitata dell'encoder di testo (token limitati) e dalla difficoltà intrinseca di generare scene complesse che coinvolgono più esseri umani. Mentre i metodi attuali hanno tentato di affrontare solo il limite delle dimensioni di addestramento, spesso hanno prodotto scene centrate sull'uomo con gravi artefatti. Proponiamo BeyondScene, un nuovo framework che supera le limitazioni precedenti, generando scene centrate sull'uomo ad alta risoluzione (oltre 8K) con una corrispondenza testo-immagine eccezionale e naturalezza utilizzando modelli di diffusione pre-addestrati esistenti. BeyondScene adotta un approccio gerarchico e a stadi per generare inizialmente un'immagine di base dettagliata, concentrandosi sugli elementi cruciali nella creazione di istanze per più esseri umani e descrizioni dettagliate oltre il limite di token del modello di diffusione, e poi per convertire in modo fluido l'immagine di base in un output ad alta risoluzione, superando le dimensioni delle immagini di addestramento e incorporando dettagli consapevoli del testo e delle istanze attraverso il nostro nuovo processo di ingrandimento gerarchico consapevole delle istanze, che consiste nella nostra proposta di diffusione in avanti con iniezione di alte frequenze e diffusione congiunta adattativa. BeyondScene supera i metodi esistenti in termini di corrispondenza con descrizioni testuali dettagliate e naturalezza, aprendo la strada a applicazioni avanzate nella creazione di scene centrate sull'uomo ad alta risoluzione oltre la capacità dei modelli di diffusione pre-addestrati senza costosi ri-addestramenti. Pagina del progetto: https://janeyeon.github.io/beyond-scene.

English

Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.

BeyondScene: Generazione di Scene Centrate sull'Umano ad Alta Risoluzione con Modelli di Diffusione Pre-addestrati

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

Abstract

Support