OneReward: Vereinheitlichte maskengeleitete Bildgenerierung durch Multi-Task-Lernen menschlicher Präferenzen
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
August 28, 2025
papers.authors: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI
papers.abstract
In diesem Artikel stellen wir OneReward vor, ein einheitliches Reinforcement-Learning-Framework, das die generativen Fähigkeiten des Modells über mehrere Aufgaben hinweg unter verschiedenen Bewertungskriterien verbessert, indem es nur ein einziges Belohnungsmodell verwendet. Durch den Einsatz eines einzigen Vision-Language-Modells (VLM) als generatives Belohnungsmodell, das den Gewinner und Verlierer für eine gegebene Aufgabe und ein gegebenes Bewertungskriterium unterscheiden kann, kann es effektiv auf Multi-Task-Generationsmodelle angewendet werden, insbesondere in Kontexten mit variierten Daten und unterschiedlichen Aufgabenzielen. Wir verwenden OneReward für maskengeführte Bildgenerierung, die weiter in mehrere Unteraufgaben wie Bildfüllung, Bildverlängerung, Objektentfernung und Textdarstellung unterteilt werden kann, wobei eine binäre Maske als Bearbeitungsbereich dient. Obwohl diese domänenspezifischen Aufgaben dasselbe Konditionierungsparadigma teilen, unterscheiden sie sich erheblich in den zugrunde liegenden Datenverteilungen und Bewertungsmetriken. Bestehende Methoden verlassen sich oft auf aufgabenspezifisches Supervised Fine-Tuning (SFT), was die Generalisierung und Trainings effizienz einschränkt. Aufbauend auf OneReward entwickeln wir Seedream 3.0 Fill, ein maskengeführtes Generationsmodell, das über Multi-Task-Reinforcement-Learning direkt auf einem vortrainierten Basismodell trainiert wird und so aufgabenspezifisches SFT überflüssig macht. Experimentelle Ergebnisse zeigen, dass unser einheitliches Bearbeitungsmodell sowohl kommerzielle als auch Open-Source-Konkurrenten wie Ideogram, Adobe Photoshop und FLUX Fill [Pro] über mehrere Bewertungsdimensionen hinweg konsequent übertrifft. Code und Modell sind verfügbar unter: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning
framework that enhances the model's generative capabilities across multiple
tasks under different evaluation criteria using only One Reward model.
By employing a single vision-language model (VLM) as the generative reward
model, which can distinguish the winner and loser for a given task and a given
evaluation criterion, it can be effectively applied to multi-task generation
models, particularly in contexts with varied data and diverse task objectives.
We utilize OneReward for mask-guided image generation, which can be further
divided into several sub-tasks such as image fill, image extend, object
removal, and text rendering, involving a binary mask as the edit area. Although
these domain-specific tasks share same conditioning paradigm, they differ
significantly in underlying data distributions and evaluation metrics. Existing
methods often rely on task-specific supervised fine-tuning (SFT), which limits
generalization and training efficiency. Building on OneReward, we develop
Seedream 3.0 Fill, a mask-guided generation model trained via multi-task
reinforcement learning directly on a pre-trained base model, eliminating the
need for task-specific SFT. Experimental results demonstrate that our unified
edit model consistently outperforms both commercial and open-source
competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across
multiple evaluation dimensions. Code and model are available at:
https://one-reward.github.io