EditReward: Ein menschlich ausgerichtetes Belohnungsmodell für anweisungsgesteuerte Bildbearbeitung
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
papers.authors: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
papers.abstract
Kürzlich haben wir große Fortschritte bei der Bildbearbeitung mit natürlichen Sprachanweisungen beobachtet. Mehrere proprietäre Modelle wie GPT-Image-1, Seedream und Google-Nano-Banana haben äußerst vielversprechende Entwicklungen gezeigt. Dennoch hinken die Open-Source-Modelle noch hinterher. Der Hauptengpass ist das Fehlen eines zuverlässigen Belohnungsmodells, um hochwertige synthetische Trainingsdaten zu skalieren. Um diesen kritischen Engpass zu überwinden, haben wir \mname entwickelt, das mit unserem neuen groß angelegten Datensatz für menschliche Präferenzen trainiert wurde, der von geschulten Experten nach einem strengen Protokoll mit über 200.000 Präferenzpaaren sorgfältig annotiert wurde. \mname zeigt eine überlegene Übereinstimmung mit menschlichen Präferenzen bei aufgabenorientierter Bildbearbeitung. Experimente zeigen, dass \mname eine state-of-the-art Korrelation mit menschlichen Bewertungen auf etablierten Benchmarks wie GenAI-Bench, AURORA-Bench, ImagenHub und unserem neuen \benchname erreicht und dabei eine breite Palette von VLM-as-Judge-Modellen übertrifft. Darüber hinaus verwenden wir \mname, um eine hochwertige Teilmenge aus dem bestehenden verrauschten ShareGPT-4o-Image-Datensatz auszuwählen. Wir trainieren Step1X-Edit auf der ausgewählten Teilmenge, was eine signifikante Verbesserung gegenüber dem Training auf dem vollständigen Datensatz zeigt. Dies demonstriert die Fähigkeit von \mname, als Belohnungsmodell zu dienen, um hochwertige Trainingsdaten für die Bildbearbeitung zu skalieren. Darüber hinaus deutet seine starke Übereinstimmung auf das Potenzial für fortgeschrittene Anwendungen wie verstärkungsbasiertes Nachtraining und Testzeit-Skalierung von Bildbearbeitungsmodellen hin. \mname wird zusammen mit seinem Trainingsdatensatz veröffentlicht, um die Gemeinschaft bei der Erstellung weiterer hochwertiger Trainingsdatensätze für die Bildbearbeitung zu unterstützen.
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.