SuperEdit: 指示に基づく画像編集のための監視の修正と促進
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
著者: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
要旨
正確な編集データを手動で収集する困難さから、既存のデータセットは通常、様々な自動化された方法を用いて構築されており、編集指示と元画像-編集画像ペアのミスマッチによるノイズの多い教師信号が生じています。最近の取り組みでは、より高品質な編集画像の生成、認識タスクでの事前学習、または視覚言語モデル(VLM)の導入を通じて編集モデルの改善を試みていますが、この根本的な問題を解決することには至っていません。本論文では、与えられた画像ペアに対してより効果的な編集指示を構築するという新たな解決策を提案します。これには、編集指示を修正して元画像-編集画像ペアとの整合性を高めること、および対照的な編集指示を使用してその効果をさらに向上させることが含まれます。具体的には、編集モデルがテキストとは独立して、異なる推論ステップで特定の生成属性を示すことを発見しました。これらの事前属性に基づいて、VLMに対して編集指示を修正するための統一されたガイドを定義します。しかし、修正された指示だけでは解決できない難しい編集シナリオも存在します。このため、ポジティブとネガティブな指示を用いて対照的な教師信号を構築し、それをトリプレット損失を用いてモデル学習に導入することで、教師信号の効果をさらに促進します。我々の方法は、従来の研究で使用されていたVLMモジュールや事前学習タスクを必要とせず、より直接的かつ効率的に優れた教師信号を提供し、指示ベースの画像編集に対して新たでシンプルかつ効果的な解決策を提供します。複数のベンチマークでの結果は、我々の方法が既存のアプローチを大幅に上回ることを示しています。従来のSOTAであるSmartEditと比較して、Real-Editベンチマークで9.19%の改善を達成し、トレーニングデータは30分の1、モデルサイズは13分の1です。
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.Summary
AI-Generated Summary