ChatPaper.aiChatPaper

Inserção Mágica: Arrastar e Soltar Consciente do Estilo

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Autores: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Resumo

Apresentamos o Magic Insert, um método para arrastar e soltar objetos de uma imagem fornecida pelo usuário em uma imagem de destino de estilo diferente de maneira fisicamente plausível, ao mesmo tempo em que combina o estilo da imagem de destino. Este trabalho formaliza o problema de arrastar e soltar com consciência de estilo e apresenta um método para lidar com ele, abordando dois subproblemas: personalização com consciência de estilo e inserção realista de objetos em imagens estilizadas. Para personalização com consciência de estilo, nosso método primeiro ajusta finamente um modelo de difusão de texto para imagem pré-treinado usando LoRA e tokens de texto aprendidos na imagem do objeto e, em seguida, o infunde com uma representação CLIP do estilo alvo. Para inserção de objetos, utilizamos Adaptação de Domínio Bootstrap para adaptar um modelo de inserção de objetos fotorrealísticos específico de domínio ao domínio de estilos artísticos diversos. No geral, o método supera significativamente abordagens tradicionais como inpainting. Por fim, apresentamos um conjunto de dados, SubjectPlop, para facilitar a avaliação e o progresso futuro nesta área. Página do projeto: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
PDF221November 28, 2024