Inserción Mágica: Arrastrar y Soltar Consciente del Estilo
Magic Insert: Style-Aware Drag-and-Drop
July 2, 2024
Autores: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI
Resumen
Presentamos Magic Insert, un método para arrastrar y soltar sujetos de una imagen proporcionada por el usuario en una imagen objetivo de un estilo diferente de manera físicamente plausible mientras se ajusta al estilo de la imagen objetivo. Este trabajo formaliza el problema de arrastrar y soltar con conciencia de estilo y presenta un método para abordarlo al abordar dos subproblemas: personalización con conciencia de estilo e inserción realista de objetos en imágenes estilizadas. Para la personalización con conciencia de estilo, nuestro método primero ajusta finamente un modelo de difusión de texto a imagen preentrenado utilizando LoRA y tokens de texto aprendidos en la imagen del sujeto, y luego lo infunde con una representación CLIP del estilo objetivo. Para la inserción de objetos, utilizamos Adaptación de Dominio Bootstrap para adaptar un modelo de inserción de objetos fotorrealistas específico de dominio al dominio de diversos estilos artísticos. En general, el método supera significativamente en rendimiento a enfoques tradicionales como el rellenado. Finalmente, presentamos un conjunto de datos, SubjectPlop, para facilitar la evaluación y el progreso futuro en esta área. Página del proyecto: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a
user-provided image into a target image of a different style in a physically
plausible manner while matching the style of the target image. This work
formalizes the problem of style-aware drag-and-drop and presents a method for
tackling it by addressing two sub-problems: style-aware personalization and
realistic object insertion in stylized images. For style-aware personalization,
our method first fine-tunes a pretrained text-to-image diffusion model using
LoRA and learned text tokens on the subject image, and then infuses it with a
CLIP representation of the target style. For object insertion, we use
Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object
insertion model to the domain of diverse artistic styles. Overall, the method
significantly outperforms traditional approaches such as inpainting. Finally,
we present a dataset, SubjectPlop, to facilitate evaluation and future progress
in this area. Project page: https://magicinsert.github.io/Summary
AI-Generated Summary