USO: Унифицированная генерация на основе стиля и темы через разделенное и обучение с подкреплением

Аннотация

Существующая литература обычно рассматривает генерацию, управляемую стилем, и генерацию, управляемую объектом, как две независимые задачи: первая делает акцент на стилистическом сходстве, тогда как вторая настаивает на согласованности объекта, что приводит к явному антагонизму. Мы утверждаем, что обе цели могут быть объединены в рамках единой системы, поскольку они в конечном итоге касаются разделения и повторной композиции содержания и стиля, что является давней темой в исследованиях, связанных со стилем. Для этого мы представляем USO, унифицированную модель кастомизации, оптимизированную для стиля и объекта. Во-первых, мы создаем крупномасштабный набор данных в виде триплетов, состоящих из изображений содержания, изображений стиля и соответствующих им стилизованных изображений содержания. Во-вторых, мы вводим схему разделенного обучения, которая одновременно выравнивает стилевые признаки и разделяет содержание и стиль с помощью двух взаимодополняющих задач: обучения на выравнивание стиля и обучения на разделение содержания и стиля. В-третьих, мы включаем парадигму обучения с подкреплением стиля, обозначенную как SRL, чтобы дополнительно повысить производительность модели. Наконец, мы выпускаем USO-Bench, первый эталонный тест, который совместно оценивает сходство стиля и точность объекта по нескольким метрикам. Многочисленные эксперименты демонстрируют, что USO достигает наилучших результатов среди моделей с открытым исходным кодом по обоим параметрам: согласованности объекта и сходству стиля. Код и модель: https://github.com/bytedance/USO.

English

Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO

USO: Унифицированная генерация на основе стиля и темы через разделенное и обучение с подкреплением

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

Аннотация

Support