USO : Génération unifiée de style et de sujet via un apprentissage désentrelacé et par récompense
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
papers.authors: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
papers.abstract
La littérature existante traite généralement la génération axée sur le style et celle axée sur le sujet comme deux tâches disjointes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, ce qui entraîne un antagonisme apparent. Nous soutenons que ces deux objectifs peuvent être unifiés dans un cadre unique, car ils concernent en fin de compte la dissociation et la recomposition du contenu et du style, un thème récurrent dans la recherche axée sur le style. À cette fin, nous présentons USO, un modèle de personnalisation unifié optimisé pour le style et le sujet. Premièrement, nous construisons un jeu de données à grande échelle composé de triplets d'images de contenu, d'images de style et de leurs images de contenu stylisées correspondantes. Deuxièmement, nous introduisons un schéma d'apprentissage dissocié qui aligne simultanément les caractéristiques de style et dissocie le contenu du style grâce à deux objectifs complémentaires : l'entraînement à l'alignement du style et l'entraînement à la dissociation contenu-style. Troisièmement, nous intégrons un paradigme d'apprentissage par récompense de style, noté SRL, pour améliorer davantage les performances du modèle. Enfin, nous publions USO-Bench, le premier benchmark qui évalue conjointement la similarité de style et la fidélité du sujet selon plusieurs métriques. Des expériences approfondies démontrent que USO atteint des performances de pointe parmi les modèles open-source, à la fois en termes de cohérence du sujet et de similarité de style. Code et modèle : https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO