Nützen synthetische Schichtdesign-Daten der Schichtdesign-Dekomposition?

Zusammenfassung

Jüngste Fortschritte in der Bildgenerierung haben die Erstellung hochwertiger Bilder erheblich vereinfacht. Allerdings liegen diese Ausgaben grundsätzlich nur als flache Darstellung vor, bei der Vordergrundelemente, Hintergrund und Text innerhalb eines festgelegten Bildbereichs miteinander verknüpft sind. Folglich bleibt eine flexible Bearbeitung nach der Generierung eine Herausforderung, was eine deutliche letzte-Meile-Lücke hin zur praktischen Nutzbarkeit offenbart. Bestehende Ansätze stützen sich entweder auf seltene proprietäre Schichtressourcen oder konstruieren teilweise synthetische Daten aus begrenzten strukturellen Vorbedingungen. Beide Strategien stehen jedoch vor grundlegenden Herausforderungen in Bezug auf die Skalierbarkeit. In dieser Arbeit untersuchen wir, ob rein synthetische Schichtdaten die Zerlegung von Grafikdesign verbessern können. Wir gehen dabei von der Annahme aus, dass eine effektive Zerlegung im Grafikdesign keine so präzise Modellierung der Abhängigkeiten zwischen den Schichten erfordert wie bei der Komposition natürlicher Bilder, da Designelemente oft bewusst als modulare und semantisch trennbare Komponenten angeordnet sind. Konkret führen wir eine datenzentrierte Studie auf Basis der CLD-Baseline durch, eines hochmodernen Frameworks zur Schichtzerlegung. Ausgehend von dieser Baseline erstellen wir unseren eigenen synthetischen Datensatz, SynLayers, generieren textuelle Überwachungssignale mithilfe von Vision-Language-Modellen und automatisieren Inferenzeingaben durch VLM-vorhergesagte Begrenzungsrahmen. Unsere Studie offenbart drei wichtige Erkenntnisse: (1) Selbst das Training mit rein synthetischen Daten kann nicht skalierbare Alternativen wie den weit verbreiteten PrismLayersPro-Datensatz übertreffen, was seine Nutzbarkeit als skalierbaren und effektiven Ersatz demonstriert; (2) die Leistung verbessert sich konsequent mit zunehmendem Trainingsdatenumfang, wobei die Zuwächse bei etwa 50K Stichproben zu stagnieren beginnen; und (3) synthetische Daten ermöglichen eine ausgewogene Kontrolle über die Verteilungen der Schichtanzahl und vermeiden so das in realen Datensätzen häufig beobachtete Ungleichgewicht bei der Schichtanzahl. Wir hoffen, dass diese datenzentrierte Studie eine breitere Nutzung synthetischer Daten als praktische Grundlage für Editiersysteme für geschichtetes Design fördert.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.