ChatPaper.aiChatPaper

EditReward: Модель вознаграждения, согласованная с человеком, для редактирования изображений на основе инструкций

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

September 30, 2025
Авторы: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI

Аннотация

В последнее время мы наблюдаем значительный прогресс в редактировании изображений с использованием инструкций на естественном языке. Несколько закрытых моделей, таких как GPT-Image-1, Seedream и Google-Nano-Banana, продемонстрировали весьма многообещающие результаты. Однако открытые модели все еще отстают. Основным узким местом является отсутствие надежной модели вознаграждения для масштабирования высококачественных синтетических обучающих данных. Чтобы устранить этот критический недостаток, мы разработали \mname, обученную на нашем новом крупномасштабном наборе данных о человеческих предпочтениях, тщательно аннотированном обученными экспертами в соответствии с строгим протоколом, содержащим более 200 тысяч пар предпочтений. \mname демонстрирует превосходное соответствие человеческим предпочтениям в задачах редактирования изображений с использованием инструкций. Эксперименты показывают, что \mname достигает наилучшей корреляции с человеческими оценками на установленных бенчмарках, таких как GenAI-Bench, AURORA-Bench, ImagenHub и нашем новом \benchname, превосходя широкий спектр моделей VLM-as-judge. Кроме того, мы используем \mname для выбора высококачественного подмножества из существующего зашумленного набора данных ShareGPT-4o-Image. Мы обучаем Step1X-Edit на выбранном подмножестве, что показывает значительное улучшение по сравнению с обучением на полном наборе данных. Это демонстрирует способность \mname служить моделью вознаграждения для масштабирования высококачественных обучающих данных для редактирования изображений. Более того, ее сильное соответствие человеческим предпочтениям предполагает потенциал для продвинутых приложений, таких как пост-обучение на основе обучения с подкреплением и масштабирование моделей редактирования изображений на этапе тестирования. \mname вместе с ее обучающим набором данных будет выпущена, чтобы помочь сообществу создавать более качественные обучающие наборы данных для редактирования изображений.
English
Recently, we have witnessed great progress in image editing with natural language instructions. Several closed-source models like GPT-Image-1, Seedream, and Google-Nano-Banana have shown highly promising progress. However, the open-source models are still lagging. The main bottleneck is the lack of a reliable reward model to scale up high-quality synthetic training data. To address this critical bottleneck, we built \mname, trained with our new large-scale human preference dataset, meticulously annotated by trained experts following a rigorous protocol containing over 200K preference pairs. \mname demonstrates superior alignment with human preferences in instruction-guided image editing tasks. Experiments show that \mname achieves state-of-the-art human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench, ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge models. Furthermore, we use \mname to select a high-quality subset from the existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected subset, which shows significant improvement over training on the full set. This demonstrates \mname's ability to serve as a reward model to scale up high-quality training data for image editing. Furthermore, its strong alignment suggests potential for advanced applications like reinforcement learning-based post-training and test-time scaling of image editing models. \mname with its training dataset will be released to help the community build more high-quality image editing training datasets.
PDF153October 2, 2025