ChatPaper.aiChatPaper

Magic Insert : Glisser-déposer sensible au style

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Auteurs: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Résumé

Nous présentons Magic Insert, une méthode permettant de glisser-déposer des sujets depuis une image fournie par l'utilisateur vers une image cible de style différent, de manière physiquement plausible tout en respectant le style de l'image cible. Ce travail formalise le problème du glisser-déposer conscient du style et propose une méthode pour le résoudre en abordant deux sous-problèmes : la personnalisation consciente du style et l'insertion réaliste d'objets dans des images stylisées. Pour la personnalisation consciente du style, notre méthode affine d'abord un modèle de diffusion texte-image pré-entraîné en utilisant LoRA et des tokens textuels appris sur l'image du sujet, puis l'enrichit avec une représentation CLIP du style cible. Pour l'insertion d'objets, nous utilisons l'Adaptation de Domaine Bootstrap pour adapter un modèle spécifique d'insertion d'objets photoréalistes au domaine des styles artistiques variés. Globalement, la méthode surpasse significativement les approches traditionnelles telles que l'inpainting. Enfin, nous présentons un ensemble de données, SubjectPlop, pour faciliter l'évaluation et les progrès futurs dans ce domaine. Page du projet : https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/

Summary

AI-Generated Summary

PDF221November 28, 2024