ChatPaper.aiChatPaper

Scone: Überbrückung von Komposition und Differenzierung in subjektgesteuerter Bildgenerierung durch vereinheitlichtes Verständnis-Generierungs-Modellieren

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

December 14, 2025
papers.authors: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
cs.AI

papers.abstract

Subjektgesteuerte Bildgenerierung hat sich von Einzel- zu Mehrfachsubjektkompositionen weiterentwickelt, vernachlässigte dabei jedoch die Unterscheidungsfähigkeit – die Fähigkeit, das korrekte Subjekt zu identifizieren und zu generieren, wenn Eingaben mehrere Kandidaten enthalten. Diese Einschränkung mindert die Wirksamkeit in komplexen, realistischen visuellen Umgebungen. Wir stellen Scone vor, eine vereinheitlichte Verstehens-Generierungs-Methode, die Komposition und Unterscheidung integriert. Scone ermöglicht es dem Verstehensexperten, als semantische Brücke zu fungieren, semantische Informationen zu übermitteln und den Generierungsexperten anzuleiten, die Subjektidentität zu bewahren und Interferenzen zu minimieren. Ein zweistufiges Trainingsschema erlernt zunächst Komposition und verbessert dann die Unterscheidung durch semantische Ausrichtung und aufmerksamkeitsbasierte Maskierung. Wir führen zudem SconeEval ein, einen Benchmark zur Bewertung von Komposition und Unterscheidung in diversen Szenarien. Experimente zeigen, dass Scone bestehende Open-Source-Modelle in Kompositions- und Unterscheidungsaufgaben auf zwei Benchmarks übertrifft. Unser Modell, Benchmark und Trainingsdaten sind verfügbar unter: https://github.com/Ryann-Ran/Scone.
English
Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to identify and generate the correct subject when inputs contain multiple candidates. This limitation restricts effectiveness in complex, realistic visual settings. We propose Scone, a unified understanding-generation method that integrates composition and distinction. Scone enables the understanding expert to act as a semantic bridge, conveying semantic information and guiding the generation expert to preserve subject identity while minimizing interference. A two-stage training scheme first learns composition, then enhances distinction through semantic alignment and attention-based masking. We also introduce SconeEval, a benchmark for evaluating both composition and distinction across diverse scenarios. Experiments demonstrate that Scone outperforms existing open-source models in composition and distinction tasks on two benchmarks. Our model, benchmark, and training data are available at: https://github.com/Ryann-Ran/Scone.
PDF401December 18, 2025