ChatPaper.aiChatPaper

Magisches Einfügen: Stilbewusstes Ziehen und Ablegen

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
Autoren: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

Zusammenfassung

Wir präsentieren Magic Insert, eine Methode zum Ziehen und Ablegen von Objekten aus einem vom Benutzer bereitgestellten Bild in ein Zielbild eines anderen Stils auf eine physikalisch plausible Weise, während der Stil des Zielbildes beibehalten wird. Diese Arbeit formalisiert das Problem des stilbewussten Ziehens und Ablegens und präsentiert eine Methode zur Bewältigung, indem zwei Teilaufgaben angegangen werden: stilbewusste Personalisierung und realistische Objekteinfügung in stilisierten Bildern. Für stilbewusste Personalisierung feinabstimmt unsere Methode zunächst ein vorab trainiertes Text-zu-Bild-Diffusionsmodell unter Verwendung von LoRA und erlernten Texttokens auf dem Subjektbild und fügt dann eine CLIP-Repräsentation des Zielstils hinzu. Für die Objekteinfügung verwenden wir Bootstrapped Domain Adaption, um ein domänenspezifisches fotorealistisches Objekteinfügungsmodell an die Domäne verschiedener künstlerischer Stile anzupassen. Insgesamt übertrifft die Methode traditionelle Ansätze wie Inpainting signifikant. Abschließend präsentieren wir einen Datensatz, SubjectPlop, um die Bewertung und zukünftigen Fortschritte in diesem Bereich zu erleichtern. Projektseite: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/

Summary

AI-Generated Summary

PDF221November 28, 2024