ChatPaper.aiChatPaper

USO : Génération unifiée de style et de sujet via un apprentissage désentrelacé et par récompense

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

August 26, 2025
papers.authors: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI

papers.abstract

La littérature existante traite généralement la génération axée sur le style et celle axée sur le sujet comme deux tâches disjointes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, ce qui entraîne un antagonisme apparent. Nous soutenons que ces deux objectifs peuvent être unifiés dans un cadre unique, car ils concernent en fin de compte la dissociation et la recomposition du contenu et du style, un thème récurrent dans la recherche axée sur le style. À cette fin, nous présentons USO, un modèle de personnalisation unifié optimisé pour le style et le sujet. Premièrement, nous construisons un jeu de données à grande échelle composé de triplets d'images de contenu, d'images de style et de leurs images de contenu stylisées correspondantes. Deuxièmement, nous introduisons un schéma d'apprentissage dissocié qui aligne simultanément les caractéristiques de style et dissocie le contenu du style grâce à deux objectifs complémentaires : l'entraînement à l'alignement du style et l'entraînement à la dissociation contenu-style. Troisièmement, nous intégrons un paradigme d'apprentissage par récompense de style, noté SRL, pour améliorer davantage les performances du modèle. Enfin, nous publions USO-Bench, le premier benchmark qui évalue conjointement la similarité de style et la fidélité du sujet selon plusieurs métriques. Des expériences approfondies démontrent que USO atteint des performances de pointe parmi les modèles open-source, à la fois en termes de cohérence du sujet et de similarité de style. Code et modèle : https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO
PDF492August 29, 2025