USO: Generación Unificada de Estilo y Temática mediante Aprendizaje Desacoplado y Basado en Recompensas
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
August 26, 2025
Autores: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI
Resumen
La literatura existente generalmente trata la generación impulsada por el estilo y la impulsada por el sujeto como dos tareas disjuntas: la primera prioriza la similitud estilística, mientras que la segunda insiste en la consistencia del sujeto, lo que resulta en un aparente antagonismo. Argumentamos que ambos objetivos pueden unificarse bajo un único marco porque, en última instancia, se refieren a la separación y recomposición del contenido y el estilo, un tema recurrente en la investigación impulsada por el estilo. Con este fin, presentamos USO, un modelo de personalización optimizado unificado para estilo y sujeto. Primero, construimos un conjunto de datos a gran escala de tripletas que consiste en imágenes de contenido, imágenes de estilo y sus correspondientes imágenes de contenido estilizadas. Segundo, introducimos un esquema de aprendizaje desacoplado que alinea simultáneamente las características de estilo y separa el contenido del estilo a través de dos objetivos complementarios: el entrenamiento de alineación de estilo y el entrenamiento de separación contenido-estilo. Tercero, incorporamos un paradigma de aprendizaje por recompensa de estilo, denominado SRL, para mejorar aún más el rendimiento del modelo. Finalmente, lanzamos USO-Bench, el primer punto de referencia que evalúa conjuntamente la similitud de estilo y la fidelidad del sujeto a través de múltiples métricas. Experimentos exhaustivos demuestran que USO logra un rendimiento de vanguardia entre los modelos de código abierto en ambas dimensiones de consistencia del sujeto y similitud de estilo. Código y modelo: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO