OneReward: Uniforme maskergeleide beeldgeneratie via multi-task menselijke voorkeursleren
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
Auteurs: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
Samenvatting
In dit artikel introduceren we OneReward, een uniform raamwerk voor reinforcement learning dat de generatieve capaciteiten van het model verbetert over meerdere taken onder verschillende evaluatiecriteria met slechts één beloningsmodel. Door een enkel vision-language model (VLM) te gebruiken als het generatieve beloningsmodel, dat de winnaar en verliezer kan onderscheiden voor een gegeven taak en een gegeven evaluatiecriterium, kan het effectief worden toegepast op multi-task generatiemodellen, vooral in contexten met gevarieerde data en diverse taakdoelen. We passen OneReward toe voor masker-geleide beeldgeneratie, wat verder kan worden onderverdeeld in verschillende subtaken zoals beeldvulling, beelduitbreiding, objectverwijdering en tekstweergave, waarbij een binair masker wordt gebruikt als het bewerkingsgebied. Hoewel deze domeinspecifieke taken hetzelfde conditioneringsparadigma delen, verschillen ze aanzienlijk in onderliggende dataverdelingen en evaluatiemetrics. Bestaande methoden zijn vaak afhankelijk van taakspecifieke supervised fine-tuning (SFT), wat de generalisatie en trainings efficiëntie beperkt. Op basis van OneReward ontwikkelen we Seedream 3.0 Fill, een masker-geleid generatiemodel getraind via multi-task reinforcement learning direct op een vooraf getraind basismodel, waardoor taakspecifieke SFT overbodig wordt. Experimentele resultaten tonen aan dat ons uniforme bewerkmodel consistent beter presteert dan zowel commerciële als open-source concurrenten, zoals Ideogram, Adobe Photoshop en FLUX Fill [Pro], over meerdere evaluatiedimensies. Code en model zijn beschikbaar op: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io