ChatPaper.aiChatPaper

이미지 편집 쌍 없이 이미지 편집 모델 학습하기

Learning an Image Editing Model without Image Editing Pairs

October 16, 2025
저자: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI

초록

최근 이미지 편집 모델들은 자연어 편집 지시를 따르며 인상적인 결과를 달성했지만, 이는 대규모 입력-대상 쌍 데이터셋을 활용한 지도 학습 미세 조정에 의존합니다. 이는 자연적으로 발생하는 이러한 쌍을 대규모로 구축하기 어렵다는 점에서 중요한 병목 현상으로 작용합니다. 현재의 해결책은 기존 모델의 제로샷 능력을 활용한 합성 학습 쌍을 사용하지만, 이는 사전 학습된 모델의 아티팩트를 최종 학습 모델로 전파하고 증폭시킬 수 있습니다. 본 연구에서는 쌍 데이터의 필요성을 완전히 제거한 새로운 학습 패러다임을 제시합니다. 우리의 접근 방식은 학습 중에 몇 단계의 확산 모델을 펼쳐 시각-언어 모델(VLM)의 피드백을 활용하여 직접 최적화합니다. 각 입력과 편집 지시에 대해 VLM은 편집이 지시를 따르고 변경되지 않은 콘텐츠를 보존하는지 평가하며, 이를 통해 엔드투엔드 최적화를 위한 직접적인 그래디언트를 제공합니다. 시각적 충실도를 보장하기 위해, 사전 학습된 모델이 학습한 이미지 매니폴드 내에 생성된 이미지가 유지되도록 분포 매칭 손실(DMD)을 통합합니다. 우리는 표준 벤치마크에서 이 방법을 평가하고 광범위한 절제 연구를 포함합니다. 쌍 데이터 없이도, 우리의 방법은 대규모 지도 학습 쌍 데이터로 학습된 다양한 이미지 편집 확산 모델과 몇 단계 설정에서 동등한 성능을 보입니다. 동일한 VLM을 보상 모델로 사용할 때, 우리는 Flow-GRPO와 같은 RL 기반 기술도 능가합니다.
English
Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.
PDF62October 17, 2025