ChatPaper.aiChatPaper

USO: Generazione Unificata di Stile e Soggetto tramite Apprendimento Disaccoppiato e Basato su Ricompense

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

August 26, 2025
Autori: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
cs.AI

Abstract

La letteratura esistente tratta tipicamente la generazione guidata dallo stile e quella guidata dal soggetto come due compiti separati: la prima priorizza la somiglianza stilistica, mentre la seconda insiste sulla coerenza del soggetto, risultando in un apparente antagonismo. Sosteniamo che entrambi gli obiettivi possano essere unificati in un unico framework poiché riguardano in ultima analisi la separazione e la ricomposizione di contenuto e stile, un tema di lunga data nella ricerca guidata dallo stile. A tal fine, presentiamo USO, un modello di personalizzazione ottimizzato unificato per stile e soggetto. In primo luogo, costruiamo un ampio dataset di triplette costituito da immagini di contenuto, immagini di stile e le corrispondenti immagini di contenuto stilizzate. In secondo luogo, introduciamo uno schema di apprendimento separato che allinea simultaneamente le caratteristiche dello stile e separa il contenuto dallo stile attraverso due obiettivi complementari: l'addestramento all'allineamento dello stile e l'addestramento alla separazione contenuto-stile. In terzo luogo, incorporiamo un paradigma di apprendimento basato sulla ricompensa dello stile, denominato SRL, per migliorare ulteriormente le prestazioni del modello. Infine, rilasciamo USO-Bench, il primo benchmark che valuta congiuntamente la somiglianza stilistica e la fedeltà del soggetto attraverso molteplici metriche. Esperimenti estensivi dimostrano che USO raggiunge prestazioni all'avanguardia tra i modelli open-source sia in termini di coerenza del soggetto che di somiglianza stilistica. Codice e modello: https://github.com/bytedance/USO
English
Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO
PDF562August 29, 2025