ChatPaper.aiChatPaper

BeyondScene : Génération de scènes centrées sur l'humain à plus haute résolution avec des modèles de diffusion pré-entraînés

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

April 6, 2024
Auteurs: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
cs.AI

Résumé

La génération de scènes centrées sur l'humain à haute résolution, riches en détails et contrôlables, reste un défi pour les modèles de diffusion texte-image existants. Ce défi découle de la taille limitée des images d'entraînement, de la capacité limitée de l'encodeur de texte (nombre de tokens restreint) et de la difficulté inhérente à générer des scènes complexes impliquant plusieurs humains. Bien que les méthodes actuelles aient tenté de résoudre uniquement la limite de taille d'entraînement, elles ont souvent produit des scènes centrées sur l'humain présentant des artefacts importants. Nous proposons BeyondScene, un cadre novateur qui surmonte ces limitations antérieures, générant des scènes centrées sur l'humain à très haute résolution (plus de 8K) avec une correspondance texte-image exceptionnelle et un rendu naturel, en utilisant des modèles de diffusion pré-entraînés existants. BeyondScene adopte une approche hiérarchique et par étapes pour générer initialement une image de base détaillée, en se concentrant sur les éléments cruciaux dans la création d'instances pour plusieurs humains et sur des descriptions détaillées dépassant la limite de tokens du modèle de diffusion, puis pour convertir de manière fluide cette image de base en une sortie à plus haute résolution, dépassant la taille des images d'entraînement et intégrant des détails conscients du texte et des instances via notre nouveau processus d'agrandissement hiérarchique sensible aux instances, qui comprend notre diffusion avant injectée en haute fréquence et notre diffusion conjointe adaptative. BeyondScene surpasse les méthodes existantes en termes de correspondance avec des descriptions textuelles détaillées et de naturalité, ouvrant la voie à des applications avancées dans la création de scènes centrées sur l'humain à haute résolution, au-delà de la capacité des modèles de diffusion pré-entraînés, sans nécessiter un réentraînement coûteux. Page du projet : https://janeyeon.github.io/beyond-scene.
English
Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.

Summary

AI-Generated Summary

PDF240December 15, 2024