HP-Edit: Un framework post-addestramento basato sulle preferenze umane per l'editing di immagini

Abstract

Le comuni attività di modifica delle immagini adottano generalmente potenti modelli di diffusione generativa come paradigma principale per l'editing di contenuti nel mondo reale. Nel frattempo, sebbene i metodi di apprendimento per rinforzo (RL) come Diffusion-DPO e Flow-GRBO abbiano ulteriormente migliorato la qualità della generazione, l'applicazione efficiente del Reinforcement Learning from Human Feedback (RLHF) all'editing basato su modelli di diffusione rimane in gran parte inesplorata, a causa della mancanza di dataset di preferenze umane scalabili e di framework specifici per diverse esigenze di editing. Per colmare questa lacuna, proponiamo HP-Edit, un framework di post-training per l'Editing Allineato alle Preferenze Umane, e introduciamo RealPref-50K, un dataset del mondo reale che copre otto compiti comuni e bilancia l'editing di oggetti comuni. Nello specifico, HP-Edit utilizza una piccola quantità di dati di valutazione delle preferenze umane e un modello linguistico visivo (VLM) preaddestrato per sviluppare HP-Scorer, un valutatore automatico allineato alle preferenze umane. Utilizziamo quindi HP-Scorer sia per costruire efficientemente un dataset di preferenze scalabile, sia come funzione di reward per il post-training del modello di editing. Introduciamo inoltre RealPref-Bench, un benchmark per valutare le prestazioni di editing nel mondo reale. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente modelli come Qwen-Image-Edit-2509, allineando i loro output più strettamente alle preferenze umane.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Un framework post-addestramento basato sulle preferenze umane per l'editing di immagini

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Abstract

Support