USO: Унифицированная генерация на основе стиля и темы через разделенное и обучение с подкреплением
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
Авторы: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
Аннотация
Существующая литература обычно рассматривает генерацию, управляемую стилем, и генерацию, управляемую объектом, как две независимые задачи: первая делает акцент на стилистическом сходстве, тогда как вторая настаивает на согласованности объекта, что приводит к явному антагонизму. Мы утверждаем, что обе цели могут быть объединены в рамках единой системы, поскольку они в конечном итоге касаются разделения и повторной композиции содержания и стиля, что является давней темой в исследованиях, связанных со стилем. Для этого мы представляем USO, унифицированную модель кастомизации, оптимизированную для стиля и объекта. Во-первых, мы создаем крупномасштабный набор данных в виде триплетов, состоящих из изображений содержания, изображений стиля и соответствующих им стилизованных изображений содержания. Во-вторых, мы вводим схему разделенного обучения, которая одновременно выравнивает стилевые признаки и разделяет содержание и стиль с помощью двух взаимодополняющих задач: обучения на выравнивание стиля и обучения на разделение содержания и стиля. В-третьих, мы включаем парадигму обучения с подкреплением стиля, обозначенную как SRL, чтобы дополнительно повысить производительность модели. Наконец, мы выпускаем USO-Bench, первый эталонный тест, который совместно оценивает сходство стиля и точность объекта по нескольким метрикам. Многочисленные эксперименты демонстрируют, что USO достигает наилучших результатов среди моделей с открытым исходным кодом по обоим параметрам: согласованности объекта и сходству стиля. Код и модель: https://github.com/bytedance/USO.
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO