편집 전이: 비전 인-컨텍스트 관계를 통한 이미지 편집 학습
Edit Transfer: Learning Image Editing via Vision In-Context Relations
March 17, 2025
저자: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI
초록
우리는 새로운 설정인 '편집 전이(Edit Transfer)'를 소개합니다. 이 설정에서 모델은 단 하나의 소스-타겟 예시로부터 변환을 학습하고 이를 새로운 쿼리 이미지에 적용합니다. 텍스트 기반 방법들은 텍스트 프롬프트를 통해 의미론적 조작에서 뛰어난 성능을 보이지만, 정확한 기하학적 세부 사항(예: 포즈 및 시점 변화)에서는 종종 어려움을 겪습니다. 반면, 참조 기반 편접은 일반적으로 스타일이나 외관에 초점을 맞추며 비강체 변환에서는 실패합니다. 소스-타겟 쌍으로부터 명시적으로 편집 변환을 학습함으로써, 편집 전이는 텍스트만 사용하는 방식과 외관 중심 참조 방식의 한계를 모두 완화합니다. 대규모 언어 모델의 인-컨텍스트 학습에서 영감을 받아, 우리는 DiT 기반 텍스트-이미지 모델을 기반으로 한 시각적 관계 인-컨텍스트 학습 패러다임을 제안합니다. 편집된 예시와 쿼리 이미지를 통합된 4패널 합성물로 배열한 후, 최소한의 예시로부터 복잡한 공간 변환을 포착하기 위해 경량화된 LoRA 미세 조정을 적용합니다. 단 42개의 훈련 샘플만 사용했음에도 불구하고, 편집 전이는 다양한 비강체 시나리오에서 최신의 TIE 및 RIE 방법들을 크게 능가하며, 소수 샷 시각적 관계 학습의 효과를 입증합니다.
English
We introduce a new setting, Edit Transfer, where a model learns a
transformation from just a single source-target example and applies it to a new
query image. While text-based methods excel at semantic manipulations through
textual prompts, they often struggle with precise geometric details (e.g.,
poses and viewpoint changes). Reference-based editing, on the other hand,
typically focuses on style or appearance and fails at non-rigid
transformations. By explicitly learning the editing transformation from a
source-target pair, Edit Transfer mitigates the limitations of both text-only
and appearance-centric references. Drawing inspiration from in-context learning
in large language models, we propose a visual relation in-context learning
paradigm, building upon a DiT-based text-to-image model. We arrange the edited
example and the query image into a unified four-panel composite, then apply
lightweight LoRA fine-tuning to capture complex spatial transformations from
minimal examples. Despite using only 42 training samples, Edit Transfer
substantially outperforms state-of-the-art TIE and RIE methods on diverse
non-rigid scenarios, demonstrating the effectiveness of few-shot visual
relation learning.Summary
AI-Generated Summary