HP-Edit: 画像編集のための人間の嗜好に基づく事後学習フレームワーク
HP-Edit: A Human-Preference Post-Training Framework for Image Editing
April 21, 2026
著者: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo
cs.AI
要旨
一般的な画像編集タスクでは、実世界のコンテンツ編集における主要パラダイムとして、強力な生成拡散モデルが採用されることが多い。一方、Diffusion-DPOやFlow-GRPOなどの強化学習(RL)手法が生成品質をさらに向上させているものの、人間フィードバックからの強化学習(RLHF)を拡散ベースの編集に効率的に適用する方法は、スケーラブルな人間嗜好データセットや多様な編集ニーズに特化したフレームワークの不足により、ほとんど未開拓のままである。このギャップを埋めるため、我々は人間嗜好に沿った編集のための学習後フレームワーク「HP-Edit」を提案し、8つの一般的なタスクを網羅し共通物体編集のバランスを取った実世界データセット「RealPref-50K」を導入する。具体的には、HP-Editは少量の人間嗜好スコアリングデータと事前学習済み視覚大規模言語モデル(VLM)を活用し、自動的な人間嗜好評価器「HP-Scorer」を開発する。その後、HP-Scorerを、スケーラブルな嗜好データセットの効率的な構築と、編集モデルの学習後調整における報酬関数の両方に利用する。さらに、実世界編集性能を評価するベンチマーク「RealPref-Bench」も導入する。大規模な実験により、本手法がQwen-Image-Edit-2509などのモデルを大幅に強化し、その出力を人間の嗜好により密接に一致させることを実証する。
English
Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.