ChatPaper.aiChatPaper

Inserción Mágica: Arrastrar y Soltar Consciente del Estilo

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Autores: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Resumen

Presentamos Magic Insert, un método para arrastrar y soltar sujetos de una imagen proporcionada por el usuario en una imagen objetivo de un estilo diferente de manera físicamente plausible mientras se ajusta al estilo de la imagen objetivo. Este trabajo formaliza el problema de arrastrar y soltar con conciencia de estilo y presenta un método para abordarlo al abordar dos subproblemas: personalización con conciencia de estilo e inserción realista de objetos en imágenes estilizadas. Para la personalización con conciencia de estilo, nuestro método primero ajusta finamente un modelo de difusión de texto a imagen preentrenado utilizando LoRA y tokens de texto aprendidos en la imagen del sujeto, y luego lo infunde con una representación CLIP del estilo objetivo. Para la inserción de objetos, utilizamos Adaptación de Dominio Bootstrap para adaptar un modelo de inserción de objetos fotorrealistas específico de dominio al dominio de diversos estilos artísticos. En general, el método supera significativamente en rendimiento a enfoques tradicionales como el rellenado. Finalmente, presentamos un conjunto de datos, SubjectPlop, para facilitar la evaluación y el progreso futuro en esta área. Página del proyecto: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/

Summary

AI-Generated Summary

PDF221November 28, 2024