USO: Geração Unificada de Estilo e Orientada por Assunto através de Aprendizado Desacoplado e por Recompensa
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
Autores: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
Resumo
A literatura existente geralmente trata a geração orientada por estilo e a orientada por assunto como duas tarefas distintas: a primeira prioriza a similaridade estilística, enquanto a segunda insiste na consistência do assunto, resultando em um aparente antagonismo. Argumentamos que ambos os objetivos podem ser unificados em um único framework, pois, em última análise, dizem respeito à desagregação e recomposição de conteúdo e estilo, um tema de longa data na pesquisa orientada por estilo. Para isso, apresentamos o USO, um modelo de personalização otimizado unificado para estilo e assunto. Primeiro, construímos um grande conjunto de dados de triplas consistindo em imagens de conteúdo, imagens de estilo e suas correspondentes imagens de conteúdo estilizadas. Segundo, introduzimos um esquema de aprendizado desagregado que alinha simultaneamente características de estilo e desagrega conteúdo de estilo por meio de dois objetivos complementares: treinamento de alinhamento de estilo e treinamento de desagregação conteúdo-estilo. Terceiro, incorporamos um paradigma de aprendizado por recompensa de estilo, denominado SRL, para aprimorar ainda mais o desempenho do modelo. Por fim, lançamos o USO-Bench, o primeiro benchmark que avalia conjuntamente a similaridade de estilo e a fidelidade ao assunto em múltiplas métricas. Experimentos extensivos demonstram que o USO alcança desempenho de ponta entre os modelos de código aberto em ambas as dimensões de consistência de assunto e similaridade de estilo. Código e modelo: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO