USO: Vereinheitlichte Stil- und themengetriebene Generierung durch entkoppeltes und belohnungsbasiertes Lernen
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
papers.authors: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
papers.abstract
Die bestehende Literatur behandelt stilgetriebene und subjektgetriebene Generierung typischerweise als zwei getrennte Aufgaben: Erstere priorisiert stilistische Ähnlichkeit, während Letztere auf Subjektkonsistenz besteht, was zu einem offensichtlichen Antagonismus führt. Wir argumentieren, dass beide Ziele in einem einzigen Rahmen vereinheitlicht werden können, da sie letztendlich die Entflechtung und Neuzusammensetzung von Inhalt und Stil betreffen, ein langjähriges Thema in der stilgetriebenen Forschung. Zu diesem Zweck präsentieren wir USO, ein Unified Style-Subject Optimized Customization-Modell. Zunächst erstellen wir einen groß angelegten Tripel-Datensatz, der aus Inhaltsbildern, Stilbildern und ihren entsprechenden stilisierten Inhaltsbildern besteht. Zweitens führen wir ein entflochtenes Lernschema ein, das gleichzeitig Stilmerkmale ausrichtet und Inhalt von Stil durch zwei komplementäre Ziele entflechtet: Stilausrichtungstraining und Inhalt-Stil-Entflechtungstraining. Drittens integrieren wir ein Stil-Belohnungslernparadigma, das als SRL bezeichnet wird, um die Leistung des Modells weiter zu verbessern. Schließlich veröffentlichen wir USO-Bench, den ersten Benchmark, der stilistische Ähnlichkeit und Subjekttreue über mehrere Metriken hinweg gemeinsam bewertet. Umfangreiche Experimente zeigen, dass USO in beiden Dimensionen der Subjektkonsistenz und stilistischen Ähnlichkeit eine state-of-the-art Leistung unter Open-Source-Modellen erzielt. Code und Modell: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO