ChatPaper.aiChatPaper

Magic Insert: Inserimento Stile-Consapevole con Drag-and-Drop

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Autori: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Abstract

Presentiamo Magic Insert, un metodo per trascinare e rilasciare soggetti da un'immagine fornita dall'utente in un'immagine target di uno stile diverso in modo fisicamente plausibile, adattandosi allo stile dell'immagine target. Questo lavoro formalizza il problema del trascinamento e rilascio consapevole dello stile e propone un metodo per affrontarlo risolvendo due sotto-problemi: personalizzazione consapevole dello stile e inserimento realistico di oggetti in immagini stilizzate. Per la personalizzazione consapevole dello stile, il nostro metodo prima ottimizza un modello di diffusione testo-immagine preaddestrato utilizzando LoRA e token testuali appresi sull'immagine del soggetto, per poi arricchirlo con una rappresentazione CLIP dello stile target. Per l'inserimento di oggetti, utilizziamo l'Adattamento di Dominio con Bootstrapping per adattare un modello specifico di inserimento fotorealistico di oggetti al dominio di stili artistici diversi. Nel complesso, il metodo supera significativamente approcci tradizionali come l'inpainting. Infine, presentiamo un dataset, SubjectPlop, per facilitare la valutazione e i progressi futuri in questo ambito. Pagina del progetto: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
PDF221November 28, 2024