ChatPaper.aiChatPaper

Scone: 理解と生成の統一モデリングによる主題駆動画像生成における構成性と識別性の橋渡し

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

December 14, 2025
著者: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
cs.AI

要旨

主題駆動型画像生成は、単一主題から複数主題の合成へと進化してきましたが、識別能力、すなわち入力に複数の候補が含まれる場合に正しい主題を識別して生成する能力が軽視されてきました。この制約が、複雑で現実的な視覚環境における有効性を妨げています。本研究では、合成と識別を統合した統一的理解-生成手法「Scone」を提案します。Sconeは理解専門家を意味論的橋渡し役として機能させ、意味情報を伝達しつつ生成専門家を導くことで、主題の同一性を保持しながら干渉を最小化します。2段階の訓練戦略により、最初に合成を学習し、意味的アラインメントと注意機構に基づくマスキングを通じて識別能力を強化します。さらに、多様なシナリオにおける合成と識別の両方を評価するベンチマーク「SconeEval」を導入します。実験により、Sconeが2つのベンチマークにおいて合成タスクと識別タスクの両方で既存のオープンソースモデルを凌駕することを実証しました。モデル、ベンチマーク、訓練データはhttps://github.com/Ryann-Ran/Sconeで公開しています。
English
Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to identify and generate the correct subject when inputs contain multiple candidates. This limitation restricts effectiveness in complex, realistic visual settings. We propose Scone, a unified understanding-generation method that integrates composition and distinction. Scone enables the understanding expert to act as a semantic bridge, conveying semantic information and guiding the generation expert to preserve subject identity while minimizing interference. A two-stage training scheme first learns composition, then enhances distinction through semantic alignment and attention-based masking. We also introduce SconeEval, a benchmark for evaluating both composition and distinction across diverse scenarios. Experiments demonstrate that Scone outperforms existing open-source models in composition and distinction tasks on two benchmarks. Our model, benchmark, and training data are available at: https://github.com/Ryann-Ran/Scone.
PDF401December 18, 2025