画像編集ペアを用いない画像編集モデルの学習
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
著者: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
要旨
最近の画像編集モデルは、自然言語による編集指示に従って印象的な結果を達成しているが、それらは入力とターゲットのペアからなる大規模なデータセットを用いた教師ありファインチューニングに依存している。これは重要なボトルネックであり、そのような自然に発生するペアを大規模にキュレーションすることは困難である。現在の回避策として、既存モデルのゼロショット能力を活用した合成トレーニングペアが使用されている。しかし、これにより事前学習モデルのアーティファクトが最終的な学習済みモデルに伝播・増幅される可能性がある。本研究では、ペアデータを完全に不要とする新しいトレーニングパラダイムを提案する。我々のアプローチでは、トレーニング中に数ステップの拡散モデルを展開し、視覚言語モデル(VLM)からのフィードバックを活用することで直接最適化を行う。各入力と編集指示に対して、VLMは編集が指示に従い、変更されていない内容を保持しているかどうかを評価し、エンドツーエンド最適化のための直接的な勾配を提供する。視覚的な忠実度を確保するために、事前学習モデルによって学習された画像多様体内に生成画像を留める分布マッチング損失(DMD)を組み込む。我々の手法を標準的なベンチマークで評価し、広範なアブレーションスタディを含める。ペアデータを一切使用せずに、我々の手法は数ステップ設定の下で、広範な教師ありペアデータで学習された様々な画像編集拡散モデルと同等の性能を発揮する。報酬モデルとして同じVLMが与えられた場合、Flow-GRPOのようなRLベースの技術も上回る。
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.