ChatPaper.aiChatPaper

EditReward : Un modèle de récompense aligné sur l'humain pour l'édition d'images guidée par des instructions

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

September 30, 2025
papers.authors: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI

papers.abstract

Récemment, nous avons assisté à des progrès significatifs dans l'édition d'images guidée par des instructions en langage naturel. Plusieurs modèles propriétaires tels que GPT-Image-1, Seedream et Google-Nano-Banana ont montré des avancées très prometteuses. Cependant, les modèles open source restent à la traîne. Le principal goulot d'étranglement réside dans l'absence d'un modèle de récompense fiable pour augmenter la quantité de données d'entraînement synthétiques de haute qualité. Pour résoudre ce problème critique, nous avons développé \mname, entraîné avec notre nouveau jeu de données à grande échelle de préférences humaines, méticuleusement annoté par des experts formés suivant un protocole rigoureux contenant plus de 200 000 paires de préférences. \mname démontre une supériorité dans l'alignement avec les préférences humaines pour les tâches d'édition d'images guidées par des instructions. Les expériences montrent que \mname atteint une corrélation humaine de pointe sur des benchmarks établis tels que GenAI-Bench, AURORA-Bench, ImagenHub et notre nouveau \benchname, surpassant une large gamme de modèles VLM-as-judge. De plus, nous utilisons \mname pour sélectionner un sous-ensemble de haute qualité à partir du jeu de données bruyant existant ShareGPT-4o-Image. Nous entraînons Step1X-Edit sur ce sous-ensemble sélectionné, ce qui montre une amélioration significative par rapport à l'entraînement sur l'ensemble complet. Cela démontre la capacité de \mname à servir de modèle de récompense pour augmenter la quantité de données d'entraînement de haute qualité pour l'édition d'images. Par ailleurs, son fort alignement suggère un potentiel pour des applications avancées telles que l'optimisation post-entraînement basée sur l'apprentissage par renforcement et la mise à l'échelle au moment du test des modèles d'édition d'images. \mname, ainsi que son jeu de données d'entraînement, seront publiés pour aider la communauté à construire davantage de jeux de données d'entraînement de haute qualité pour l'édition d'images.
English
Recently, we have witnessed great progress in image editing with natural language instructions. Several closed-source models like GPT-Image-1, Seedream, and Google-Nano-Banana have shown highly promising progress. However, the open-source models are still lagging. The main bottleneck is the lack of a reliable reward model to scale up high-quality synthetic training data. To address this critical bottleneck, we built \mname, trained with our new large-scale human preference dataset, meticulously annotated by trained experts following a rigorous protocol containing over 200K preference pairs. \mname demonstrates superior alignment with human preferences in instruction-guided image editing tasks. Experiments show that \mname achieves state-of-the-art human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench, ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge models. Furthermore, we use \mname to select a high-quality subset from the existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected subset, which shows significant improvement over training on the full set. This demonstrates \mname's ability to serve as a reward model to scale up high-quality training data for image editing. Furthermore, its strong alignment suggests potential for advanced applications like reinforcement learning-based post-training and test-time scaling of image editing models. \mname with its training dataset will be released to help the community build more high-quality image editing training datasets.
PDF153October 2, 2025