OneReward: Geração Unificada de Imagens Orientada por Máscara via Aprendizado de Preferências Humanas Multitarefa
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
Autores: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
Resumo
Neste artigo, apresentamos o OneReward, um framework unificado de aprendizado por reforço que aprimora as capacidades generativas do modelo em múltiplas tarefas sob diferentes critérios de avaliação utilizando apenas Um Modelo de Recompensa. Ao empregar um único modelo de visão e linguagem (VLM) como modelo de recompensa generativa, capaz de distinguir o vencedor e o perdedor para uma determinada tarefa e um critério de avaliação específico, ele pode ser efetivamente aplicado a modelos de geração multitarefa, especialmente em contextos com dados variados e objetivos de tarefa diversos. Utilizamos o OneReward para geração de imagens guiada por máscara, que pode ser subdividida em várias subtarefas, como preenchimento de imagem, extensão de imagem, remoção de objetos e renderização de texto, envolvendo uma máscara binária como área de edição. Embora essas tarefas específicas de domínio compartilhem o mesmo paradigma de condicionamento, elas diferem significativamente nas distribuições de dados subjacentes e nas métricas de avaliação. Métodos existentes frequentemente dependem de ajuste fino supervisionado (SFT) específico para cada tarefa, o que limita a generalização e a eficiência do treinamento. Com base no OneReward, desenvolvemos o Seedream 3.0 Fill, um modelo de geração guiada por máscara treinado via aprendizado por reforço multitarefa diretamente em um modelo base pré-treinado, eliminando a necessidade de SFT específico para cada tarefa. Resultados experimentais demonstram que nosso modelo de edição unificado supera consistentemente tanto concorrentes comerciais quanto de código aberto, como Ideogram, Adobe Photoshop e FLUX Fill [Pro], em múltiplas dimensões de avaliação. Código e modelo estão disponíveis em: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io