ChatPaper.aiChatPaper

Magic Insert: Stijlbewust Slepen-en-Neerzetten

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Auteurs: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Samenvatting

We presenteren Magic Insert, een methode voor het slepen-en-neerzetten van onderwerpen uit een door de gebruiker aangeleverde afbeelding in een doelafbeelding met een andere stijl, op een fysiek plausibele manier terwijl de stijl van de doelafbeelding wordt nagebootst. Dit werk formaliseert het probleem van stijlbewust slepen-en-neerzetten en presenteert een methode om dit aan te pakken door twee subproblemen te behandelen: stijlbewuste personalisatie en realistische objectinvoeging in gestileerde afbeeldingen. Voor stijlbewuste personalisatie fine-tunt onze methode eerst een vooraf getraind tekst-naar-afbeelding diffusiemodel met behulp van LoRA en geleerde teksttokens op de onderwerpafbeelding, en infuseert het vervolgens met een CLIP-representatie van de doelstijl. Voor objectinvoeging gebruiken we Bootstrapped Domain Adaption om een domeinspecifiek fotorealistisch objectinvoegingsmodel aan te passen aan het domein van diverse artistieke stijlen. Over het algemeen presteert de methode aanzienlijk beter dan traditionele benaderingen zoals inpainting. Tot slot presenteren we een dataset, SubjectPlop, om evaluatie en toekomstige vooruitgang op dit gebied te faciliteren. Projectpagina: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
PDF221November 28, 2024