ChatPaper.aiChatPaper

OneReward: Vereinheitlichte maskengeleitete Bildgenerierung durch Multi-Task-Lernen menschlicher Präferenzen

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

August 28, 2025
papers.authors: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
cs.AI

papers.abstract

In diesem Artikel stellen wir OneReward vor, ein einheitliches Reinforcement-Learning-Framework, das die generativen Fähigkeiten des Modells über mehrere Aufgaben hinweg unter verschiedenen Bewertungskriterien verbessert, indem es nur ein einziges Belohnungsmodell verwendet. Durch den Einsatz eines einzigen Vision-Language-Modells (VLM) als generatives Belohnungsmodell, das den Gewinner und Verlierer für eine gegebene Aufgabe und ein gegebenes Bewertungskriterium unterscheiden kann, kann es effektiv auf Multi-Task-Generationsmodelle angewendet werden, insbesondere in Kontexten mit variierten Daten und unterschiedlichen Aufgabenzielen. Wir verwenden OneReward für maskengeführte Bildgenerierung, die weiter in mehrere Unteraufgaben wie Bildfüllung, Bildverlängerung, Objektentfernung und Textdarstellung unterteilt werden kann, wobei eine binäre Maske als Bearbeitungsbereich dient. Obwohl diese domänenspezifischen Aufgaben dasselbe Konditionierungsparadigma teilen, unterscheiden sie sich erheblich in den zugrunde liegenden Datenverteilungen und Bewertungsmetriken. Bestehende Methoden verlassen sich oft auf aufgabenspezifisches Supervised Fine-Tuning (SFT), was die Generalisierung und Trainings effizienz einschränkt. Aufbauend auf OneReward entwickeln wir Seedream 3.0 Fill, ein maskengeführtes Generationsmodell, das über Multi-Task-Reinforcement-Learning direkt auf einem vortrainierten Basismodell trainiert wird und so aufgabenspezifisches SFT überflüssig macht. Experimentelle Ergebnisse zeigen, dass unser einheitliches Bearbeitungsmodell sowohl kommerzielle als auch Open-Source-Konkurrenten wie Ideogram, Adobe Photoshop und FLUX Fill [Pro] über mehrere Bewertungsdimensionen hinweg konsequent übertrifft. Code und Modell sind verfügbar unter: https://one-reward.github.io
English
In this paper, we introduce OneReward, a unified reinforcement learning framework that enhances the model's generative capabilities across multiple tasks under different evaluation criteria using only One Reward model. By employing a single vision-language model (VLM) as the generative reward model, which can distinguish the winner and loser for a given task and a given evaluation criterion, it can be effectively applied to multi-task generation models, particularly in contexts with varied data and diverse task objectives. We utilize OneReward for mask-guided image generation, which can be further divided into several sub-tasks such as image fill, image extend, object removal, and text rendering, involving a binary mask as the edit area. Although these domain-specific tasks share same conditioning paradigm, they differ significantly in underlying data distributions and evaluation metrics. Existing methods often rely on task-specific supervised fine-tuning (SFT), which limits generalization and training efficiency. Building on OneReward, we develop Seedream 3.0 Fill, a mask-guided generation model trained via multi-task reinforcement learning directly on a pre-trained base model, eliminating the need for task-specific SFT. Experimental results demonstrate that our unified edit model consistently outperforms both commercial and open-source competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across multiple evaluation dimensions. Code and model are available at: https://one-reward.github.io
PDF94August 29, 2025