USO: Uniforme Stijl- en Onderwerpgestuurde Generatie via Ontvlochten en Beloningsleren
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
Auteurs: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
Samenvatting
Bestaande literatuur behandelt stijlgedreven en onderwerpgedreven generatie doorgaans als twee gescheiden taken: de eerste legt de nadruk op stilistische gelijkenis, terwijl de tweede aandringt op consistentie van het onderwerp, wat resulteert in een schijnbare tegenstelling. Wij stellen dat beide doelstellingen kunnen worden verenigd onder één enkel raamwerk, omdat ze uiteindelijk gaan over het ontwarren en opnieuw samenstellen van inhoud en stijl, een lang bestaand thema in stijlgedreven onderzoek. Hiertoe presenteren wij USO, een Unified Style-Subject Optimized aanpassingsmodel. Ten eerste construeren we een grootschalige tripletdataset bestaande uit inhoudsafbeeldingen, stijlafbeeldingen en hun corresponderende gestileerde inhoudsafbeeldingen. Ten tweede introduceren we een ontward leerprogramma dat tegelijkertijd stijlkenmerken uitlijnt en inhoud van stijl ontwart door middel van twee complementaire doelstellingen: stijluitlijnings-training en inhoud-stijl-ontwarrings-training. Ten derde integreren we een stijlbeloningsleerparadigma, aangeduid als SRL, om de prestaties van het model verder te verbeteren. Tot slot brengen we USO-Bench uit, de eerste benchmark die zowel stijlgelijkheid als onderwerptrouw gezamenlijk evalueert over meerdere metrieken. Uitgebreide experimenten tonen aan dat USO state-of-the-art prestaties behaalt onder open-source modellen op zowel het gebied van onderwerpsconsistentie als stijlgelijkheid. Code en model: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO