BeyondScene: Generación de Escenas Centradas en Humanos de Mayor Resolución con Difusión Preentrenada

Resumen

Generar escenas centradas en humanos de mayor resolución con detalles y controles sigue siendo un desafío para los modelos de difusión de texto a imagen existentes. Este desafío surge del tamaño limitado de las imágenes de entrenamiento, la capacidad del codificador de texto (tokens limitados) y la inherente dificultad de generar escenas complejas que involucren múltiples humanos. Aunque los métodos actuales han intentado abordar únicamente el límite del tamaño de entrenamiento, a menudo han producido escenas centradas en humanos con artefactos severos. Proponemos BeyondScene, un marco novedoso que supera las limitaciones anteriores, generando escenas centradas en humanos de mayor resolución (más de 8K) con una correspondencia excepcional entre texto e imagen y naturalidad, utilizando modelos de difusión preentrenados existentes. BeyondScene emplea un enfoque escalonado y jerárquico para generar inicialmente una imagen base detallada que se centra en elementos cruciales en la creación de instancias para múltiples humanos y descripciones detalladas que superan el límite de tokens del modelo de difusión, y luego convertir sin problemas la imagen base en una salida de mayor resolución, superando el tamaño de las imágenes de entrenamiento e incorporando detalles conscientes del texto y las instancias mediante nuestro novedoso proceso de ampliación jerárquica consciente de instancias, que consiste en nuestra propuesta de difusión directa con inyección de alta frecuencia y difusión conjunta adaptativa. BeyondScene supera a los métodos existentes en términos de correspondencia con descripciones de texto detalladas y naturalidad, allanando el camino para aplicaciones avanzadas en la creación de escenas centradas en humanos de mayor resolución más allá de la capacidad de los modelos de difusión preentrenados sin un costoso reentrenamiento. Página del proyecto: https://janeyeon.github.io/beyond-scene.

English

Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.

BeyondScene: Generación de Escenas Centradas en Humanos de Mayor Resolución con Difusión Preentrenada

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

Resumen

Support