OneReward: Generación Unificada de Imágenes Guiada por Máscaras mediante Aprendizaje de Preferencias Humanas Multi-Tarea
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
Autores: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
Resumen
En este artículo presentamos OneReward, un marco unificado de aprendizaje por refuerzo que mejora las capacidades generativas del modelo en múltiples tareas bajo diferentes criterios de evaluación utilizando únicamente un modelo de recompensa. Al emplear un único modelo de visión-lenguaje (VLM) como modelo generativo de recompensa, capaz de distinguir entre ganador y perdedor para una tarea y criterio de evaluación dados, puede aplicarse eficazmente a modelos de generación multitarea, especialmente en contextos con datos variados y objetivos de tarea diversos. Utilizamos OneReward para la generación de imágenes guiada por máscaras, que puede dividirse en varias subtareas como relleno de imágenes, extensión de imágenes, eliminación de objetos y renderizado de texto, involucrando una máscara binaria como área de edición. Aunque estas tareas específicas de dominio comparten el mismo paradigma de condicionamiento, difieren significativamente en las distribuciones de datos subyacentes y las métricas de evaluación. Los métodos existentes suelen depender de un ajuste fino supervisado (SFT) específico para cada tarea, lo que limita la generalización y la eficiencia del entrenamiento. Basándonos en OneReward, desarrollamos Seedream 3.0 Fill, un modelo de generación guiada por máscaras entrenado mediante aprendizaje por refuerzo multitarea directamente sobre un modelo base preentrenado, eliminando la necesidad de SFT específico por tarea. Los resultados experimentales demuestran que nuestro modelo de edición unificado supera consistentemente a competidores tanto comerciales como de código abierto, como Ideogram, Adobe Photoshop y FLUX Fill [Pro], en múltiples dimensiones de evaluación. El código y el modelo están disponibles en: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io