ChatPaper.aiChatPaper

HP-Edit: Uma Estrutura de Pós-Treinamento Baseada em Preferência Humana para Edição de Imagens

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

April 21, 2026
Autores: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo
cs.AI

Resumo

As tarefas comuns de edição de imagens geralmente adotam modelos generativos de difusão poderosos como o paradigma dominante para a edição de conteúdo no mundo real. Entretanto, embora métodos de aprendizagem por reforço (RL), como Diffusion-DPO e Flow-GRPO, tenham aprimorado ainda mais a qualidade da geração, a aplicação eficiente da Aprendizagem por Reforço a partir de Feedback Humano (RLHF) à edição baseada em difusão permanece amplamente inexplorada, devido à falta de conjuntos de dados de preferências humanas escaláveis e estruturas adaptadas às diversas necessidades de edição. Para preencher essa lacuna, propomos o HP-Edit, uma estrutura de pós-treinamento para Edição Alinhada com Preferências Humanas, e introduzimos o RealPref-50K, um conjunto de dados do mundo real abrangendo oito tarefas comuns e equilibrando a edição de objetos comuns. Especificamente, o HP-Edit aproveita uma pequena quantidade de dados de pontuação de preferências humanas e um modelo de linguagem grande visual (VLM) pré-treinado para desenvolver o HP-Scorer – um avaliador automático alinhado com as preferências humanas. Em seguida, usamos o HP-Scorer tanto para construir eficientemente um conjunto de dados de preferências escalável quanto para servir como função de recompensa para o pós-treinamento do modelo de edição. Também introduzimos o RealPref-Bench, um benchmark para avaliar o desempenho da edição no mundo real. Experimentos extensivos demonstram que nossa abordagem aprimora significativamente modelos como o Qwen-Image-Edit-2509, alinhando suas saídas mais de perto com a preferência humana.
English
Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.
PDF31April 23, 2026