ChatPaper.aiChatPaper

인-컨텍스트 편집: 대규모 확산 트랜스포머에서 인-컨텍스트 생성을 통한 지시적 이미지 편집 활성화

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

April 29, 2025
저자: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI

초록

명령어 기반 이미지 편집은 자연어 프롬프트를 통해 강력한 이미지 수정을 가능하게 하지만, 현재의 방법들은 정밀도와 효율성 간의 트레이드오프에 직면해 있습니다. 미세 조정(fine-tuning) 방법은 상당한 계산 자원과 대규모 데이터셋을 요구하는 반면, 학습이 필요 없는( training-free) 기술들은 명령어 이해와 편집 품질에서 어려움을 겪습니다. 우리는 대규모 Diffusion Transformer (DiT)의 향상된 생성 능력과 고유의 문맥 인식을 활용하여 이러한 딜레마를 해결합니다. 우리의 솔루션은 세 가지 기여를 제안합니다: (1) 구조적 변경 없이 in-context 프롬프팅을 사용하여 제로샷(zero-shot) 명령어 준수를 위한 in-context 편집 프레임워크, (2) LoRA-MoE 하이브리드 튜닝 전략으로 효율적인 적응과 동적 전문가 라우팅을 통해 유연성을 향상시키며 대규모 재학습 없이도 가능한 방법, 그리고 (3) 시각-언어 모델(VLMs)을 사용한 초기 필터 추론 시간 스케일링 방법으로 더 나은 초기 노이즈를 조기에 선택하여 편집 품질을 개선합니다. 광범위한 평가를 통해 우리의 방법이 최첨단 접근법을 능가하면서도 기존 기준 대비 0.5%의 학습 데이터와 1%의 학습 가능한 매개변수만을 요구함을 입증했습니다. 이 연구는 고정밀도이면서도 효율적인 명령어 기반 편집을 가능하게 하는 새로운 패러다임을 확립합니다. 코드와 데모는 https://river-zhang.github.io/ICEdit-gh-pages/에서 확인할 수 있습니다.
English
Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Summary

AI-Generated Summary

PDF11April 30, 2025