OneReward: Generazione Unificata di Immagini Guidata da Maschere tramite Apprendimento Multi-Task delle Preferenze Umane
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
Autori: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
Abstract
In questo articolo presentiamo OneReward, un framework unificato di apprendimento per rinforzo che potenzia le capacità generative del modello su più compiti, utilizzando un unico modello di ricompensa e rispettando diversi criteri di valutazione. Impiegando un singolo modello visione-linguaggio (VLM) come modello generativo di ricompensa, in grado di distinguere il vincitore e lo sconfitto per un determinato compito e un dato criterio di valutazione, esso può essere efficacemente applicato a modelli di generazione multi-task, specialmente in contesti con dati variabili e obiettivi di compito diversi. Utilizziamo OneReward per la generazione guidata da maschera di immagini, che può essere ulteriormente suddivisa in diversi sotto-compiti come il riempimento di immagini, l'estensione di immagini, la rimozione di oggetti e il rendering di testo, coinvolgendo una maschera binaria come area di modifica. Sebbene questi compiti specifici condividano lo stesso paradigma di condizionamento, differiscono significativamente nelle distribuzioni dei dati sottostanti e nelle metriche di valutazione. I metodi esistenti spesso si basano su un fine-tuning supervisionato specifico per compito (SFT), il che limita la generalizzazione e l'efficienza dell'addestramento. Basandoci su OneReward, sviluppiamo Seedream 3.0 Fill, un modello di generazione guidata da maschera addestrato tramite apprendimento per rinforzo multi-task direttamente su un modello base pre-addestrato, eliminando la necessità di SFT specifico per compito. I risultati sperimentali dimostrano che il nostro modello di modifica unificato supera costantemente sia i concorrenti commerciali che open-source, come Ideogram, Adobe Photoshop e FLUX Fill [Pro], su più dimensioni di valutazione. Codice e modello sono disponibili al seguente indirizzo: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io