ChatPaper.aiChatPaper

매직 인서트: 스타일 인식 드래그 앤 드롭

Magic Insert: Style-Aware Drag-and-Drop

July 2, 2024
저자: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter
cs.AI

초록

우리는 Magic Insert를 소개합니다. 이는 사용자가 제공한 이미지에서 대상을 드래그 앤 드롭하여 다른 스타일의 대상 이미지에 물리적으로 타당한 방식으로 삽입하면서 대상 이미지의 스타일과 일치시키는 방법입니다. 본 연구는 스타일 인식 드래그 앤 드롭 문제를 공식화하고, 이를 해결하기 위해 두 가지 하위 문제인 스타일 인식 개인화와 스타일화된 이미지에서의 사실적인 객체 삽입을 다루는 방법을 제시합니다. 스타일 인식 개인화를 위해, 우리의 방법은 먼저 사전 학습된 텍스트-이미지 확산 모델을 LoRA와 학습된 텍스트 토큰을 사용하여 대상 이미지에 맞게 미세 조정한 다음, 대상 스타일의 CLIP 표현을 주입합니다. 객체 삽입을 위해, 우리는 부트스트랩 도메인 적응을 사용하여 도메인 특화된 사실적인 객체 삽입 모델을 다양한 예술적 스타일의 도메인에 적응시킵니다. 전반적으로, 이 방법은 인페인팅과 같은 전통적인 접근법을 크게 능가합니다. 마지막으로, 이 분야의 평가와 향후 발전을 촉진하기 위해 SubjectPlop 데이터셋을 제시합니다. 프로젝트 페이지: https://magicinsert.github.io/
English
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/

Summary

AI-Generated Summary

PDF221November 28, 2024