ChatPaper.aiChatPaper

Scone: Colmare il Divario tra Composizione e Distinzione nella Generazione di Immagini Guidata dal Soggetto tramite Modellazione Unificata Comprensione-Generazione

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

December 14, 2025
Autori: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
cs.AI

Abstract

La generazione di immagini guidata da soggetti è evoluta dalla composizione di singoli soggetti a quella multi-soggetto, trascurando tuttavia la distinzione, ovvero la capacità di identificare e generare il soggetto corretto quando gli input contengono più candidati. Questa limitazione ne riduce l'efficacia in contesti visivi complessi e realistici. Proponiamo Scone, un metodo unificato di comprensione-generazione che integra composizione e distinzione. Scone consente all'esperto di comprensione di fungere da ponte semantico, trasmettendo informazioni semantiche e guidando l'esperto di generazione a preservare l'identità del soggetto minimizzando le interferenze. Uno schema di addestramento in due fasi apprende prima la composizione, per poi potenziare la distinzione mediante allineamento semantico e mascheramento basato su attention. Introduciamo inoltre SconeEval, un benchmark per valutare sia la composizione che la distinzione in scenari diversificati. Gli esperimenti dimostrano che Scone supera i modelli open-source esistenti in compiti di composizione e distinzione su due benchmark. Il nostro modello, benchmark e dati di addestramento sono disponibili su: https://github.com/Ryann-Ran/Scone.
English
Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to identify and generate the correct subject when inputs contain multiple candidates. This limitation restricts effectiveness in complex, realistic visual settings. We propose Scone, a unified understanding-generation method that integrates composition and distinction. Scone enables the understanding expert to act as a semantic bridge, conveying semantic information and guiding the generation expert to preserve subject identity while minimizing interference. A two-stage training scheme first learns composition, then enhances distinction through semantic alignment and attention-based masking. We also introduce SconeEval, a benchmark for evaluating both composition and distinction across diverse scenarios. Experiments demonstrate that Scone outperforms existing open-source models in composition and distinction tasks on two benchmarks. Our model, benchmark, and training data are available at: https://github.com/Ryann-Ran/Scone.
PDF401December 18, 2025