編集報酬:指示に基づく画像編集のための人間志向報酬モデル
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
著者: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
要旨
近年、自然言語指示による画像編集において大きな進展が見られています。GPT-Image-1、Seedream、Google-Nano-Bananaなどのクローズドソースモデルは、非常に有望な進歩を示しています。しかし、オープンソースモデルはまだ遅れを取っています。主なボトルネックは、高品質な合成トレーニングデータを拡大するための信頼性のある報酬モデルの欠如です。この重要なボトルネックに対処するため、我々は\mnameを構築し、新たに大規模な人間の選好データセットを用いてトレーニングしました。このデータセットは、厳格なプロトコルに従って訓練された専門家によって丁寧に注釈が付けられ、20万以上の選好ペアを含んでいます。\mnameは、指示に基づく画像編集タスクにおいて、人間の選好との優れた整合性を示しています。実験では、\mnameがGenAI-Bench、AURORA-Bench、ImagenHub、そして我々の新たな\benchnameといった確立されたベンチマークにおいて、幅広いVLM-as-judgeモデルを上回る最先端の人間相関を達成することが示されました。さらに、我々は\mnameを使用して、既存のノイズの多いShareGPT-4o-Imageデータセットから高品質なサブセットを選択しました。選択されたサブセットでStep1X-Editをトレーニングした結果、フルセットでのトレーニングに比べて大幅な改善が見られました。これは、\mnameが画像編集のための高品質なトレーニングデータを拡大するための報酬モデルとして機能する能力を示しています。さらに、その強力な整合性は、強化学習に基づくポストトレーニングやテストタイムスケーリングといった高度なアプリケーションへの可能性を示唆しています。\mnameとそのトレーニングデータセットは、コミュニティがより高品質な画像編集トレーニングデータセットを構築するために公開されます。
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.