HP-Edit: Uma Estrutura de Pós-Treinamento Baseada em Preferência Humana para Edição de Imagens

Resumo

As tarefas comuns de edição de imagens geralmente adotam modelos generativos de difusão poderosos como o paradigma dominante para a edição de conteúdo no mundo real. Entretanto, embora métodos de aprendizagem por reforço (RL), como Diffusion-DPO e Flow-GRPO, tenham aprimorado ainda mais a qualidade da geração, a aplicação eficiente da Aprendizagem por Reforço a partir de Feedback Humano (RLHF) à edição baseada em difusão permanece amplamente inexplorada, devido à falta de conjuntos de dados de preferências humanas escaláveis e estruturas adaptadas às diversas necessidades de edição. Para preencher essa lacuna, propomos o HP-Edit, uma estrutura de pós-treinamento para Edição Alinhada com Preferências Humanas, e introduzimos o RealPref-50K, um conjunto de dados do mundo real abrangendo oito tarefas comuns e equilibrando a edição de objetos comuns. Especificamente, o HP-Edit aproveita uma pequena quantidade de dados de pontuação de preferências humanas e um modelo de linguagem grande visual (VLM) pré-treinado para desenvolver o HP-Scorer – um avaliador automático alinhado com as preferências humanas. Em seguida, usamos o HP-Scorer tanto para construir eficientemente um conjunto de dados de preferências escalável quanto para servir como função de recompensa para o pós-treinamento do modelo de edição. Também introduzimos o RealPref-Bench, um benchmark para avaliar o desempenho da edição no mundo real. Experimentos extensivos demonstram que nossa abordagem aprimora significativamente modelos como o Qwen-Image-Edit-2509, alinhando suas saídas mais de perto com a preferência humana.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Uma Estrutura de Pós-Treinamento Baseada em Preferência Humana para Edição de Imagens

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Resumo

Support