OneReward: Унифицированная генерация изображений с использованием масок на основе многозадачного обучения предпочтениям человека
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
Авторы: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
Аннотация
В данной статье мы представляем OneReward — унифицированную структуру обучения с подкреплением, которая улучшает генеративные способности модели для множества задач в рамках различных критериев оценки, используя только одну модель вознаграждения. Применяя единую модель, объединяющую зрение и язык (VLM), в качестве генеративной модели вознаграждения, которая способна определить победителя и проигравшего для конкретной задачи и критерия оценки, она может эффективно использоваться в многозадачных генеративных моделях, особенно в контекстах с разнородными данными и различными целями задач. Мы применяем OneReward для маски-ориентированной генерации изображений, которая может быть разделена на несколько подзадач, таких как заполнение изображения, расширение изображения, удаление объектов и визуализация текста, где бинарная маска определяет область редактирования. Хотя эти задачи в рамках одной области используют одинаковую парадигму кондиционирования, они значительно различаются по распределению данных и метрикам оценки. Существующие методы часто полагаются на специфичное для задачи контролируемое тонкое обучение (SFT), что ограничивает обобщение и эффективность обучения. На основе OneReward мы разработали Seedream 3.0 Fill — модель маски-ориентированной генерации, обученную с помощью многозадачного обучения с подкреплением непосредственно на предварительно обученной базовой модели, что устраняет необходимость в специфичном для задачи SFT. Экспериментальные результаты показывают, что наша унифицированная модель редактирования стабильно превосходит как коммерческие, так и открытые конкурирующие решения, такие как Ideogram, Adobe Photoshop и FLUX Fill [Pro], по множеству оценочных параметров. Код и модель доступны по адресу: https://one-reward.github.io.
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io