PhotoDoodle: 소량의 페어 데이터로부터 예술적 이미지 편집 학습
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
February 20, 2025
저자: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI
초록
우리는 사진 위에 장식 요소를 오버레이할 수 있게 함으로써 아티스트들이 사진에 낙서를 쉽게 할 수 있도록 설계된 새로운 이미지 편집 프레임워크인 PhotoDoodle를 소개합니다. 사진 낙서는 삽입된 요소가 배경과 자연스럽게 통합되어야 하기 때문에 도전적인 작업입니다. 이는 사실적인 블렌딩, 원근법 정렬, 그리고 문맥적 일관성을 요구합니다. 또한, 배경은 왜곡 없이 보존되어야 하며, 아티스트의 독특한 스타일은 제한된 훈련 데이터로부터 효율적으로 포착되어야 합니다. 이러한 요구사항들은 주로 전역 스타일 전이(global style transfer)나 지역 인페인팅(regional inpainting)에 초점을 맞춘 기존 방법들로는 해결되지 않습니다. 제안된 방법인 PhotoDoodle는 두 단계의 훈련 전략을 사용합니다. 먼저, 대규모 데이터를 사용하여 범용 이미지 편집 모델인 OmniEditor를 훈련시킵니다. 그런 다음, 이 모델을 아티스트가 선별한 소규모의 전후 이미지 쌍 데이터셋으로 EditLoRA를 사용하여 미세 조정함으로써 독특한 편집 스타일과 기법을 포착합니다. 생성된 결과의 일관성을 높이기 위해 위치 인코딩 재사용 메커니즘을 도입했습니다. 또한, 6가지 고품질 스타일을 포함한 PhotoDoodle 데이터셋을 공개합니다. 광범위한 실험을 통해 우리의 방법이 맞춤형 이미지 편집에서 뛰어난 성능과 견고성을 보여주며, 예술적 창작에 새로운 가능성을 열어줌을 입증합니다.
English
We introduce PhotoDoodle, a novel image editing framework designed to
facilitate photo doodling by enabling artists to overlay decorative elements
onto photographs. Photo doodling is challenging because the inserted elements
must appear seamlessly integrated with the background, requiring realistic
blending, perspective alignment, and contextual coherence. Additionally, the
background must be preserved without distortion, and the artist's unique style
must be captured efficiently from limited training data. These requirements are
not addressed by previous methods that primarily focus on global style transfer
or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage
training strategy. Initially, we train a general-purpose image editing model,
OmniEditor, using large-scale data. Subsequently, we fine-tune this model with
EditLoRA using a small, artist-curated dataset of before-and-after image pairs
to capture distinct editing styles and techniques. To enhance consistency in
the generated results, we introduce a positional encoding reuse mechanism.
Additionally, we release a PhotoDoodle dataset featuring six high-quality
styles. Extensive experiments demonstrate the advanced performance and
robustness of our method in customized image editing, opening new possibilities
for artistic creation.Summary
AI-Generated Summary