ChatPaper.aiChatPaper

Магическое вставление: умеющее стиль перетаскивание и сброс

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Авторы: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Аннотация

Мы представляем метод Magic Insert, позволяющий перетаскивать объекты с пользовательского изображения в целевое изображение другого стиля таким образом, чтобы это происходило физически правдоподобно и соответствовало стилю целевого изображения. В данной работе формализуется проблема перетаскивания с учетом стиля и предлагается метод ее решения путем рассмотрения двух подзадач: персонализация с учетом стиля и реалистичная вставка объектов в стилизованные изображения. Для персонализации с учетом стиля наш метод сначала донастраивает предварительно обученную модель диффузии текста в изображение с использованием LoRA и обученных текстовых токенов на изображении объекта, а затем объединяет ее с CLIP-представлением целевого стиля. Для вставки объектов мы используем Bootstrapped Domain Adaption для адаптации модели вставки фотореалистичных объектов к домену разнообразных художественных стилей. В целом метод значительно превосходит традиционные подходы, такие как заполнение. Наконец, мы представляем набор данных SubjectPlop для облегчения оценки и будущего прогресса в этой области. Страница проекта: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/

Summary

AI-Generated Summary

PDF221November 28, 2024