HP-Edit: Un Marco de Post-entrenamiento Basado en Preferencias Humanas para la Edición de Imágenes

Resumen

Las tareas comunes de edición de imágenes suelen adoptar potentes modelos generativos de difusión como paradigma principal para la edición de contenido en el mundo real. Mientras tanto, aunque métodos de aprendizaje por refuerzo (RL) como Diffusion-DPO y Flow-GRPO han mejorado aún más la calidad de la generación, la aplicación eficiente del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) a la edición basada en difusión permanece en gran medida inexplorada, debido a la falta de conjuntos de datos de preferencias humanas escalables y marcos de trabajo adaptados a diversas necesidades de edición. Para llenar este vacío, proponemos HP-Edit, un marco de trabajo de post-entrenamiento para Edición Alineada con Preferencias Humanas, e introducimos RealPref-50K, un conjunto de datos del mundo real que abarca ocho tareas comunes y equilibra la edición de objetos comunes. Específicamente, HP-Edit aprovecha una pequeña cantidad de datos de puntuación de preferencias humanas y un modelo de lenguaje visual grande (VLM) preentrenado para desarrollar HP-Scorer: un evaluador automático alineado con las preferencias humanas. Luego utilizamos HP-Scorer tanto para construir eficientemente un conjunto de datos de preferencias escalable como para servir como función de recompensa en el post-entrenamiento del modelo de edición. También introducimos RealPref-Bench, un benchmark para evaluar el rendimiento de la edición en escenarios reales. Experimentos exhaustivos demuestran que nuestro enfoque mejora significativamente modelos como Qwen-Image-Edit-2509, alineando sus resultados más estrechamente con las preferencias humanas.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Un Marco de Post-entrenamiento Basado en Preferencias Humanas para la Edición de Imágenes

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Resumen

Support