EditReward: Un Modello di Ricompensa Allineato all'Umano per la Modifica di Immagini Guidata da Istruzioni
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
Autori: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
Abstract
Recentemente, abbiamo assistito a notevoli progressi nell'editing di immagini con istruzioni in linguaggio naturale. Diversi modelli proprietari come GPT-Image-1, Seedream e Google-Nano-Banana hanno mostrato progressi altamente promettenti. Tuttavia, i modelli open-source sono ancora in ritardo. Il principale collo di bottiglia è la mancanza di un modello di ricompensa affidabile per scalare dati di addestramento sintetici di alta qualità. Per affrontare questo collo di bottiglia critico, abbiamo costruito \mname, addestrato con il nostro nuovo dataset su larga scala di preferenze umane, meticolosamente annotato da esperti formati seguendo un protocollo rigoroso contenente oltre 200K coppie di preferenze. \mname dimostra un allineamento superiore con le preferenze umane nei compiti di editing di immagini guidati da istruzioni. Gli esperimenti mostrano che \mname raggiunge una correlazione umana all'avanguardia su benchmark consolidati come GenAI-Bench, AURORA-Bench, ImagenHub e il nostro nuovo \benchname, superando una vasta gamma di modelli VLM-as-judge. Inoltre, utilizziamo \mname per selezionare un sottoinsieme di alta qualità dal rumoroso dataset esistente ShareGPT-4o-Image. Addestriamo Step1X-Edit sul sottoinsieme selezionato, che mostra un miglioramento significativo rispetto all'addestramento sull'intero set. Questo dimostra la capacità di \mname di servire come modello di ricompensa per scalare dati di addestramento di alta qualità per l'editing di immagini. Inoltre, il suo forte allineamento suggerisce potenziali applicazioni avanzate come il post-addestramento basato su apprendimento per rinforzo e il ridimensionamento al momento del test dei modelli di editing di immagini. \mname, insieme al suo dataset di addestramento, verrà rilasciato per aiutare la comunità a costruire più dataset di addestramento di alta qualità per l'editing di immagini.
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.