ChatPaper.aiChatPaper

USO: 분리 학습과 보상 학습을 통한 통합 스타일 및 주제 기반 생성

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

August 26, 2025
저자: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI

초록

기존 문헌에서는 일반적으로 스타일 주도 생성과 주제 주도 생성을 두 개의 분리된 작업으로 취급합니다: 전자는 스타일적 유사성을 우선시하는 반면, 후자는 주제 일관성을 강조하여 명백한 대립 관계를 형성합니다. 우리는 이 두 목표가 궁극적으로 콘텐츠와 스타일의 분리와 재구성이라는 스타일 주도 연구의 오랜 주제와 관련이 있기 때문에 단일 프레임워크 아래 통합될 수 있다고 주장합니다. 이를 위해 우리는 통합 스타일-주제 최적화 맞춤형 모델인 USO를 제안합니다. 먼저, 콘텐츠 이미지, 스타일 이미지 및 이에 해당하는 스타일화된 콘텐츠 이미지로 구성된 대규모 삼중항 데이터셋을 구축합니다. 둘째, 스타일 정렬 학습과 콘텐츠-스타일 분리 학습이라는 두 가지 상호 보완적인 목표를 통해 스타일 특징을 정렬하고 콘텐츠를 스타일에서 분리하는 분리 학습 방식을 도입합니다. 셋째, SRL(Style Reward-Learning)로 표기된 스타일 보상 학습 패러다임을 통합하여 모델의 성능을 더욱 향상시킵니다. 마지막으로, 스타일 유사성과 주제 충실도를 여러 메트릭에 걸쳐 공동으로 평가하는 최초의 벤치마크인 USO-Bench를 공개합니다. 광범위한 실험을 통해 USO가 오픈소스 모델 중 주제 일관성과 스타일 유사성 두 차원 모두에서 최첨단 성능을 달성함을 입증합니다. 코드와 모델: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO
PDF492August 29, 2025