HP-Edit : Un cadre post-entraînement basé sur les préférences humaines pour l'édition d'images

Résumé

Les tâches courantes de retouche d'image adoptent généralement les modèles génératifs par diffusion comme paradigme dominant pour l'édition de contenu en conditions réelles. Parallèlement, bien que les méthodes d'apprentissage par renforcement (RL) telles que Diffusion-DPO et Flow-GRPO aient encore amélioré la qualité de génération, l'application efficace du Reinforcement Learning from Human Feedback (RLHF) à l'édition basée sur la diffusion reste largement inexplorée, en raison d'un manque de jeux de données de préférences humaines évolutifs et de cadres adaptés aux besoins d'édition diversifiés. Pour combler cette lacune, nous proposons HP-Edit, un cadre d'après-entraînement pour l'édition alignée sur les préférences humaines, et présentons RealPref-50K, un jeu de données réel couvrant huit tâches courantes et équilibrant l'édition d'objets communs. Concrètement, HP-Edit exploite une petite quantité de données de notation des préférences humaines et un grand modèle de langage visuel (VLM) préentraîné pour développer HP-Scorer – un évaluateur automatique aligné sur les préférences humaines. Nous utilisons ensuite HP-Scorer à la fois pour construire efficacement un jeu de données de préférences scalable et pour servir de fonction de récompense lors de l'après-entraînement du modèle d'édition. Nous présentons également RealPref-Bench, un benchmark pour évaluer les performances d'édition en conditions réelles. Des expériences approfondies démontrent que notre approche améliore significativement des modèles tels que Qwen-Image-Edit-2509, alignant leurs productions plus étroitement avec les préférences humaines.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit : Un cadre post-entraînement basé sur les préférences humaines pour l'édition d'images

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Résumé

Support