ChatPaper.aiChatPaper

BeyondScene: Генерация сцен с повышенным разрешением, ориентированная на человека, с использованием предварительно обученного диффузионного модуля.

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

April 6, 2024
Авторы: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
cs.AI

Аннотация

Генерация сцен, ориентированных на человека, более высокого разрешения с деталями и управлением остается вызовом для существующих моделей диффузии текста в изображение. Этот вызов обусловлен ограниченным размером обучающего изображения, емкостью кодера текста (ограниченное количество токенов) и врожденной сложностью генерации сложных сцен с участием нескольких людей. В то время как текущие методы пытались решить только ограничение размера обучения, они часто приводили к сценам, ориентированным на человека, с серьезными артефактами. Мы предлагаем BeyondScene, новую концепцию, которая преодолевает предыдущие ограничения, генерируя изысканные сцены, ориентированные на человека, более высокого разрешения (более 8K) с исключительным соответствием текста и изображения и естественностью, используя существующие предварительно обученные модели диффузии. BeyondScene использует ступенчатый и иерархический подход для начальной генерации детализированного базового изображения, сосредотачиваясь на ключевых элементах в создании экземпляров для нескольких людей и детализированных описаниях, выходящих за пределы ограничения токенов модели диффузии, а затем бесшовно преобразовывает базовое изображение в выход более высокого разрешения, превышающий размер обучающего изображения и включающий детали, учитывающие текст и экземпляры, с помощью нашего новаторского процесса иерархического увеличения, включающего наше предложенное внедрение высокочастотной диффузии вперед и адаптивную совместную диффузию. BeyondScene превосходит существующие методы по соответствию с детальными текстовыми описаниями и естественностью, открывая путь к продвинутым приложениям в создании сцен, ориентированных на человека, более высокого разрешения, превышающих возможности предварительно обученных моделей диффузии без дорогостоящего повторного обучения. Страница проекта: https://janeyeon.github.io/beyond-scene.
English
Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.

Summary

AI-Generated Summary

PDF240December 15, 2024