EditReward: Een op mensen afgestemd beloningsmodel voor instructiegestuurd beeldbewerken
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
Auteurs: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
Samenvatting
Onlangs hebben we grote vooruitgang gezien in beeldbewerking met natuurlijke taal instructies. Verschillende closed-source modellen zoals GPT-Image-1, Seedream en Google-Nano-Banana hebben veelbelovende resultaten laten zien. De open-source modellen lopen echter nog achter. Het belangrijkste knelpunt is het ontbreken van een betrouwbaar beloningsmodel om hoogwaardige synthetische trainingsdata op te schalen. Om dit kritieke knelpunt aan te pakken, hebben we \mname ontwikkeld, getraind met onze nieuwe grootschalige dataset van menselijke voorkeuren, zorgvuldig geannoteerd door getrainde experts volgens een rigoureus protocol met meer dan 200K voorkeursparen. \mname toont een superieure afstemming met menselijke voorkeuren in taken voor beeldbewerking op basis van instructies. Experimenten tonen aan dat \mname state-of-the-art correlatie met menselijke beoordelingen bereikt op gevestigde benchmarks zoals GenAI-Bench, AURORA-Bench, ImagenHub en onze nieuwe \benchname, en daarbij een breed scala aan VLM-as-judge modellen overtreft. Bovendien gebruiken we \mname om een hoogwaardige subset te selecteren uit de bestaande, lawaaierige ShareGPT-4o-Image dataset. We trainen Step1X-Edit op de geselecteerde subset, wat een significante verbetering laat zien ten opzichte van training op de volledige dataset. Dit toont de mogelijkheid van \mname aan om te dienen als een beloningsmodel voor het opschalen van hoogwaardige trainingsdata voor beeldbewerking. Daarnaast suggereert de sterke afstemming het potentieel voor geavanceerde toepassingen zoals reinforcement learning-gebaseerde post-training en test-time scaling van beeldbewerkingsmodellen. \mname en de bijbehorende trainingsdataset zullen worden vrijgegeven om de gemeenschap te helpen meer hoogwaardige trainingsdatasets voor beeldbewerking te bouwen.
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.