스콘: 이해-생성 통합 모델링을 통한 주체 기반 이미지 생성에서 조성과 구분의 연결
Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
December 14, 2025
저자: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
cs.AI
초록
주체 기반 이미지 생성은 단일 주체 구성에서 다중 주체 구성으로 발전해왔지만, 입력에 여러 후보가 포함될 때 정확한 주체를 식별하고 생성하는 능력인 구별성을 간과해왔습니다. 이러한 한계는 복잡하고 현실적인 시각 환경에서의 효과성을 제약합니다. 우리는 구성과 구별성을 통합한 통합 이해-생성 방법론인 Scone을 제안합니다. Scone은 이해 전문가가 의미론적 교량 역할을 수행하여 의미 정보를 전달하고, 생성 전문가가 주체 정체성을 보존하면서 간섭을 최소화하도록 안내합니다. 2단계 학습 방식을 통해 먼저 구성을 학습한 다음, 의미 정렬과 주의 기반 마스킹을 통해 구별성을 향상시킵니다. 또한 다양한 시나리오에서 구성과 구별성을 모두 평가하기 위한 벤치마크 SconeEval을 소개합니다. 실험 결과 Scone은 두 벤치마크에서 구성 및 구별성 작업에서 기존 오픈소스 모델들을 능가하는 성능을 보였습니다. 우리의 모델, 벤치마크 및 학습 데이터는 https://github.com/Ryann-Ran/Scone에서 이용 가능합니다.
English
Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to identify and generate the correct subject when inputs contain multiple candidates. This limitation restricts effectiveness in complex, realistic visual settings. We propose Scone, a unified understanding-generation method that integrates composition and distinction. Scone enables the understanding expert to act as a semantic bridge, conveying semantic information and guiding the generation expert to preserve subject identity while minimizing interference. A two-stage training scheme first learns composition, then enhances distinction through semantic alignment and attention-based masking. We also introduce SconeEval, a benchmark for evaluating both composition and distinction across diverse scenarios. Experiments demonstrate that Scone outperforms existing open-source models in composition and distinction tasks on two benchmarks. Our model, benchmark, and training data are available at: https://github.com/Ryann-Ran/Scone.