ChatPaper.aiChatPaper

OneReward : Génération d'images unifiée guidée par masque via l'apprentissage des préférences humaines multi-tâches

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

August 28, 2025
papers.authors: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI

papers.abstract

Dans cet article, nous présentons OneReward, un cadre unifié d'apprentissage par renforcement qui améliore les capacités génératives du modèle sur plusieurs tâches sous différents critères d'évaluation en utilisant un seul modèle de récompense. En employant un unique modèle vision-langage (VLM) comme modèle de récompense générative, capable de distinguer le gagnant et le perdant pour une tâche et un critère d'évaluation donnés, il peut être efficacement appliqué à des modèles de génération multi-tâches, en particulier dans des contextes impliquant des données variées et des objectifs de tâches diversifiés. Nous utilisons OneReward pour la génération d'images guidée par masque, qui peut être subdivisée en plusieurs sous-tâches telles que le remplissage d'image, l'extension d'image, la suppression d'objet et le rendu de texte, impliquant un masque binaire comme zone d'édition. Bien que ces tâches spécifiques partagent le même paradigme de conditionnement, elles diffèrent significativement dans les distributions de données sous-jacentes et les métriques d'évaluation. Les méthodes existantes reposent souvent sur un ajustement fin supervisé (SFT) spécifique à la tâche, ce qui limite la généralisation et l'efficacité de l'entraînement. En nous appuyant sur OneReward, nous développons Seedream 3.0 Fill, un modèle de génération guidée par masque entraîné via un apprentissage par renforcement multi-tâches directement sur un modèle de base pré-entraîné, éliminant ainsi le besoin d'un SFT spécifique à la tâche. Les résultats expérimentaux montrent que notre modèle d'édition unifié surpasse de manière constante les concurrents commerciaux et open-source, tels qu'Ideogram, Adobe Photoshop et FLUX Fill [Pro], sur plusieurs dimensions d'évaluation. Le code et le modèle sont disponibles à l'adresse : https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning framework that enhances the model's generative capabilities across multiple tasks under different evaluation criteria using only One Reward model. By employing a single vision-language model (VLM) as the generative reward model, which can distinguish the winner and loser for a given task and a given evaluation criterion, it can be effectively applied to multi-task generation models, particularly in contexts with varied data and diverse task objectives. We utilize OneReward for mask-guided image generation, which can be further divided into several sub-tasks such as image fill, image extend, object removal, and text rendering, involving a binary mask as the edit area. Although these domain-specific tasks share same conditioning paradigm, they differ significantly in underlying data distributions and evaluation metrics. Existing methods often rely on task-specific supervised fine-tuning (SFT), which limits generalization and training efficiency. Building on OneReward, we develop Seedream 3.0 Fill, a mask-guided generation model trained via multi-task reinforcement learning directly on a pre-trained base model, eliminating the need for task-specific SFT. Experimental results demonstrate that our unified edit model consistently outperforms both commercial and open-source competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across multiple evaluation dimensions. Code and model are available at: https://one-reward.github.io
PDF104August 29, 2025