OneReward : Génération d'images unifiée guidée par masque via l'apprentissage des préférences humaines multi-tâches
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
papers.authors: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
papers.abstract
Dans cet article, nous présentons OneReward, un cadre unifié d'apprentissage par renforcement qui améliore les capacités génératives du modèle sur plusieurs tâches sous différents critères d'évaluation en utilisant un seul modèle de récompense. En employant un unique modèle vision-langage (VLM) comme modèle de récompense générative, capable de distinguer le gagnant et le perdant pour une tâche et un critère d'évaluation donnés, il peut être efficacement appliqué à des modèles de génération multi-tâches, en particulier dans des contextes impliquant des données variées et des objectifs de tâches diversifiés. Nous utilisons OneReward pour la génération d'images guidée par masque, qui peut être subdivisée en plusieurs sous-tâches telles que le remplissage d'image, l'extension d'image, la suppression d'objet et le rendu de texte, impliquant un masque binaire comme zone d'édition. Bien que ces tâches spécifiques partagent le même paradigme de conditionnement, elles diffèrent significativement dans les distributions de données sous-jacentes et les métriques d'évaluation. Les méthodes existantes reposent souvent sur un ajustement fin supervisé (SFT) spécifique à la tâche, ce qui limite la généralisation et l'efficacité de l'entraînement. En nous appuyant sur OneReward, nous développons Seedream 3.0 Fill, un modèle de génération guidée par masque entraîné via un apprentissage par renforcement multi-tâches directement sur un modèle de base pré-entraîné, éliminant ainsi le besoin d'un SFT spécifique à la tâche. Les résultats expérimentaux montrent que notre modèle d'édition unifié surpasse de manière constante les concurrents commerciaux et open-source, tels qu'Ideogram, Adobe Photoshop et FLUX Fill [Pro], sur plusieurs dimensions d'évaluation. Le code et le modèle sont disponibles à l'adresse : https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io