ChatPaper.aiChatPaper

이미지 내 주체 재배치

Repositioning the Subject within Image

January 30, 2024
저자: Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu
cs.AI

초록

현재의 이미지 조작 기술은 주로 특정 영역을 교체하거나 전체 스타일을 변경하는 등의 정적 조작에 초점이 맞춰져 있습니다. 본 논문에서는 혁신적인 동적 조작 과제인 주체 재배치를 소개합니다. 이 과제는 사용자가 지정한 주체를 원하는 위치로 이동시키면서 이미지의 충실도를 유지하는 것을 목표로 합니다. 우리의 연구에 따르면, 주체 재배치의 기본 하위 과제들, 즉 재배치된 주체가 남긴 공간을 채우고, 주체의 가려진 부분을 재구성하며, 주체를 주변 영역과 일관되게 혼합하는 작업들은 모두 통합된 프롬프트 기반 인페인팅 작업으로 효과적으로 재구성될 수 있습니다. 결과적으로, 우리는 단일 확산 생성 모델을 사용하여 제안된 작업 역전 기법을 통해 학습된 다양한 작업 프롬프트를 활용해 이러한 하위 과제들을 해결할 수 있습니다. 또한, 주체 재배치의 품질을 더욱 향상시키기 위해 전처리 및 후처리 기술을 통합했습니다. 이러한 요소들이 결합되어 우리의 SEELE(Segment-gEnerate-and-bLEnd) 프레임워크를 형성합니다. SEELE의 주체 재배치 효과를 평가하기 위해, 우리는 ReS라는 실제 주체 재배치 데이터셋을 구축했습니다. ReS에 대한 실험 결과는 재배치된 이미지 생성의 품질을 입증합니다.
English
Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Our results on ReS demonstrate the quality of repositioned image generation.
PDF141December 15, 2024