USO: Geração Unificada de Estilo e Orientada por Assunto através de Aprendizado Desacoplado e por Recompensa

Resumo

A literatura existente geralmente trata a geração orientada por estilo e a orientada por assunto como duas tarefas distintas: a primeira prioriza a similaridade estilística, enquanto a segunda insiste na consistência do assunto, resultando em um aparente antagonismo. Argumentamos que ambos os objetivos podem ser unificados em um único framework, pois, em última análise, dizem respeito à desagregação e recomposição de conteúdo e estilo, um tema de longa data na pesquisa orientada por estilo. Para isso, apresentamos o USO, um modelo de personalização otimizado unificado para estilo e assunto. Primeiro, construímos um grande conjunto de dados de triplas consistindo em imagens de conteúdo, imagens de estilo e suas correspondentes imagens de conteúdo estilizadas. Segundo, introduzimos um esquema de aprendizado desagregado que alinha simultaneamente características de estilo e desagrega conteúdo de estilo por meio de dois objetivos complementares: treinamento de alinhamento de estilo e treinamento de desagregação conteúdo-estilo. Terceiro, incorporamos um paradigma de aprendizado por recompensa de estilo, denominado SRL, para aprimorar ainda mais o desempenho do modelo. Por fim, lançamos o USO-Bench, o primeiro benchmark que avalia conjuntamente a similaridade de estilo e a fidelidade ao assunto em múltiplas métricas. Experimentos extensivos demonstram que o USO alcança desempenho de ponta entre os modelos de código aberto em ambas as dimensões de consistência de assunto e similaridade de estilo. Código e modelo: https://github.com/bytedance/USO

English

Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO

USO: Geração Unificada de Estilo e Orientada por Assunto através de Aprendizado Desacoplado e por Recompensa

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

Resumo

Support