Scone : Relier composition et distinction dans la génération d'images pilotée par des sujets via une modélisation unifiée compréhension-génération
Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
December 14, 2025
papers.authors: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
cs.AI
papers.abstract
La génération d'images pilotée par des sujets est passée de la composition mono-sujet à multi-sujets, tout en négligeant la distinction, c'est-à-dire la capacité à identifier et générer le sujet correct lorsque les entrées contiennent plusieurs candidats. Cette limitation restreint l'efficacité dans des environnements visuels complexes et réalistes. Nous proposons Scone, une méthode unifiée de compréhension-génération qui intègre composition et distinction. Scone permet à l'expert de compréhension d'agir comme un pont sémantique, transmettant l'information sémantique et guidant l'expert de génération pour préserver l'identité du sujet tout en minimisant les interférences. Un schéma d'entraînement en deux étapes apprend d'abord la composition, puis améliore la distinction par alignement sémantique et masquage attentionnel. Nous introduisons également SconeEval, un benchmark pour évaluer à la fois la composition et la distinction dans divers scénarios. Les expériences démontrent que Scone surpasse les modèles open-source existants dans les tâches de composition et de distinction sur deux benchmarks. Notre modèle, benchmark et données d'entraînement sont disponibles à l'adresse : https://github.com/Ryann-Ran/Scone.
English
Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to identify and generate the correct subject when inputs contain multiple candidates. This limitation restricts effectiveness in complex, realistic visual settings. We propose Scone, a unified understanding-generation method that integrates composition and distinction. Scone enables the understanding expert to act as a semantic bridge, conveying semantic information and guiding the generation expert to preserve subject identity while minimizing interference. A two-stage training scheme first learns composition, then enhances distinction through semantic alignment and attention-based masking. We also introduce SconeEval, a benchmark for evaluating both composition and distinction across diverse scenarios. Experiments demonstrate that Scone outperforms existing open-source models in composition and distinction tasks on two benchmarks. Our model, benchmark, and training data are available at: https://github.com/Ryann-Ran/Scone.