HP-Edit: Een Post-Trainingsraamwerk op Basis van Menselijke Voorkeuren voor Bildbewerking

Samenvatting

Veelvoorkomende beeldbewerkingstaken maken doorgaans gebruik van krachtige generatieve diffusiemodellen als leidend paradigma voor real-world contentbewerking. Tegelijkertijd hebben reinforcement learning (RL) methoden zoals Diffusion-DPO en Flow-GRPO de generatiekwaliteit verder verbeterd, maar het efficiënt toepassen van Reinforcement Learning from Human Feedback (RLHF) op diffusiegebaseerde bewerking blijft grotendeels onontgonnen gebied. Dit komt door een gebrek aan schaalbare menselijke-preferentie datasets en frameworks die zijn afgestemd op diverse bewerkingsbehoeften. Om deze leemte op te vullen, stellen we HP-Edit voor, een post-training framework voor Human Preference-aligned Editing, en introduceren we RealPref-50K, een real-world dataset die acht veelvoorkomende taken omvat en een evenwichtige bewerking van algemene objecten nastreeft. Concreet benut HP-Edit een kleine hoeveelheid menselijke-preferentie scoringsdata en een voorgetraind visueel groot taalmodel (VLM) om HP-Scorer te ontwikkelen – een automatische, op menselijke voorkeuren afgestemde evaluator. Vervolgens gebruiken we HP-Scorer zowel om efficiënt een schaalbare preferentiedataset op te bouwen als om te dienen als beloningsfunctie voor het post-trainen van het bewerkingsmodel. We introduceren ook RealPref-Bench, een benchmark voor het evalueren van real-world bewerkingsprestaties. Uitgebreide experimenten tonen aan dat onze aanpak modellen zoals Qwen-Image-Edit-2509 aanzienlijk verbetert en hun uitvoer beter afstemt op menselijke voorkeuren.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Een Post-Trainingsraamwerk op Basis van Menselijke Voorkeuren voor Bildbewerking

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Samenvatting

Support