Магическое вставление: умеющее стиль перетаскивание и сброс
Magic Insert: Style-Aware Drag-and-Drop
July 2, 2024
Авторы: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI
Аннотация
Мы представляем метод Magic Insert, позволяющий перетаскивать объекты с пользовательского изображения в целевое изображение другого стиля таким образом, чтобы это происходило физически правдоподобно и соответствовало стилю целевого изображения. В данной работе формализуется проблема перетаскивания с учетом стиля и предлагается метод ее решения путем рассмотрения двух подзадач: персонализация с учетом стиля и реалистичная вставка объектов в стилизованные изображения. Для персонализации с учетом стиля наш метод сначала донастраивает предварительно обученную модель диффузии текста в изображение с использованием LoRA и обученных текстовых токенов на изображении объекта, а затем объединяет ее с CLIP-представлением целевого стиля. Для вставки объектов мы используем Bootstrapped Domain Adaption для адаптации модели вставки фотореалистичных объектов к домену разнообразных художественных стилей. В целом метод значительно превосходит традиционные подходы, такие как заполнение. Наконец, мы представляем набор данных SubjectPlop для облегчения оценки и будущего прогресса в этой области. Страница проекта: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a
user-provided image into a target image of a different style in a physically
plausible manner while matching the style of the target image. This work
formalizes the problem of style-aware drag-and-drop and presents a method for
tackling it by addressing two sub-problems: style-aware personalization and
realistic object insertion in stylized images. For style-aware personalization,
our method first fine-tunes a pretrained text-to-image diffusion model using
LoRA and learned text tokens on the subject image, and then infuses it with a
CLIP representation of the target style. For object insertion, we use
Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object
insertion model to the domain of diverse artistic styles. Overall, the method
significantly outperforms traditional approaches such as inpainting. Finally,
we present a dataset, SubjectPlop, to facilitate evaluation and future progress
in this area. Project page: https://magicinsert.github.io/Summary
AI-Generated Summary