SwapAnything: 개인화된 시각 편집에서 임의 객체 교체 가능
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
April 8, 2024
저자: Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang
cs.AI
초록
개인 콘텐츠의 효과적인 편집은 개인이 창의성을 발휘하고, 시각적 스토리 내에 매혹적인 내러티브를 엮으며, 시각적 콘텐츠의 전반적인 품질과 영향력을 높이는 데 중요한 역할을 합니다. 따라서 본 연구에서는 참조를 통해 제공된 개인화된 개념으로 이미지 내의 모든 객체를 교체하면서도 컨텍스트를 그대로 유지할 수 있는 새로운 프레임워크인 SwapAnything을 소개합니다. 기존의 개인화된 주체 교체 방법과 비교하여 SwapAnything은 세 가지 독특한 장점을 가지고 있습니다: (1) 주요 주체가 아닌 임의의 객체와 부분에 대한 정밀한 제어, (2) 컨텍스트 픽셀의 더 충실한 보존, (3) 개인화된 개념을 이미지에 더 잘 적응시키는 능력. 먼저, 우리는 잠재 특성 맵에 대한 영역 제어를 적용하고 마스킹된 변수를 교체하여 컨텍스트를 충실히 보존하고 초기 의미 개념 교체를 수행하기 위한 타겟 변수 교체를 제안합니다. 그런 다음, 이미지 생성 과정에서 타겟 위치, 형태, 스타일, 콘텐츠 측면에서 의미 개념을 원본 이미지에 자연스럽게 적응시키기 위한 외관 적응을 도입합니다. 인간과 자동 평가 모두에서 광범위한 결과는 개인화된 교체 작업에서 우리의 접근 방식이 기존 방법들에 비해 상당한 개선을 보여줍니다. 더 나아가, SwapAnything은 단일 객체, 다중 객체, 부분 객체, 그리고 도메인 간 교체 작업에서 정밀하고 충실한 교체 능력을 입증합니다. SwapAnything은 또한 텍스트 기반 교체 및 객체 삽입과 같은 교체 이상의 작업에서도 뛰어난 성능을 달성합니다.
English
Effective editing of personal content holds a pivotal role in enabling
individuals to express their creativity, weaving captivating narratives within
their visual stories, and elevate the overall quality and impact of their
visual content. Therefore, in this work, we introduce SwapAnything, a novel
framework that can swap any objects in an image with personalized concepts
given by the reference, while keeping the context unchanged. Compared with
existing methods for personalized subject swapping, SwapAnything has three
unique advantages: (1) precise control of arbitrary objects and parts rather
than the main subject, (2) more faithful preservation of context pixels, (3)
better adaptation of the personalized concept to the image. First, we propose
targeted variable swapping to apply region control over latent feature maps and
swap masked variables for faithful context preservation and initial semantic
concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt
the semantic concept into the original image in terms of target location,
shape, style, and content during the image generation process. Extensive
results on both human and automatic evaluation demonstrate significant
improvements of our approach over baseline methods on personalized swapping.
Furthermore, SwapAnything shows its precise and faithful swapping abilities
across single object, multiple objects, partial object, and cross-domain
swapping tasks. SwapAnything also achieves great performance on text-based
swapping and tasks beyond swapping such as object insertion.Summary
AI-Generated Summary