EditReward: Um Modelo de Recompensa Alinhado com Humanos para Edição de Imagens Guiada por Instruções
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
Autores: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
Resumo
Recentemente, testemunhamos grandes avanços na edição de imagens com instruções em linguagem natural. Vários modelos proprietários, como GPT-Image-1, Seedream e Google-Nano-Banana, mostraram progressos altamente promissores. No entanto, os modelos de código aberto ainda estão atrasados. O principal gargalo é a falta de um modelo de recompensa confiável para escalar dados de treinamento sintéticos de alta qualidade. Para resolver esse gargalo crítico, construímos o \mname, treinado com nosso novo conjunto de dados de preferências humanas em larga escala, meticulosamente anotado por especialistas treinados seguindo um protocolo rigoroso contendo mais de 200 mil pares de preferências. O \mname demonstra um alinhamento superior com as preferências humanas em tarefas de edição de imagens guiadas por instruções. Experimentos mostram que o \mname alcança correlação humana de ponta em benchmarks estabelecidos, como GenAI-Bench, AURORA-Bench, ImagenHub e nosso novo \benchname, superando uma ampla gama de modelos VLM-as-judge. Além disso, usamos o \mname para selecionar um subconjunto de alta qualidade do conjunto de dados ruidoso existente ShareGPT-4o-Image. Treinamos o Step1X-Edit no subconjunto selecionado, que mostra uma melhoria significativa em relação ao treinamento no conjunto completo. Isso demonstra a capacidade do \mname de servir como um modelo de recompensa para escalar dados de treinamento de alta qualidade para edição de imagens. Além disso, seu forte alinhamento sugere potencial para aplicações avançadas, como pós-treinamento baseado em aprendizado por reforço e escalonamento em tempo de teste de modelos de edição de imagens. O \mname, juntamente com seu conjunto de dados de treinamento, será liberado para ajudar a comunidade a construir mais conjuntos de dados de treinamento de edição de imagens de alta qualidade.
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.