Модель текст в изображение большого масштаба с заполнением - это генератор изображений, управляемый предметом, с нулевой обучающей выборкой.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Авторы: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Аннотация
Генерация изображений на основе текста, ориентированная на объект, направлена на создание изображений нового объекта в желаемом контексте путем точного захвата как визуальных характеристик объекта, так и семантического содержания текстовой подсказки. Традиционные методы полагаются на трудоемкую настройку для выравнивания объекта, в то время как недавние нулевые подходы используют мгновенное подсказывание изображения, часто жертвуя выравниванием объекта. В данной статье мы представляем Diptych Prompting, новый нулевой подход, который переосмысливает как задачу заполнения пропусков с точным выравниванием объекта, используя возникающее свойство генерации диптихов в масштабных моделях текст-изображение. Diptych Prompting устанавливает неполный диптих с эталонным изображением в левой панели и выполняет заполнение пропусков, зависящее от текста, в правой панели. Мы также предотвращаем нежелательное проникновение контента, удаляя фон на эталонном изображении, и улучшаем мелкие детали в созданном объекте, улучшая веса внимания между панелями во время заполнения пропусков. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы мгновенного подсказывания изображения, что приводит к изображениям, которые визуально предпочтительны для пользователей. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и генерацию стилизованных изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary