Komen synthetische gelaagde ontwerpgegevens de decompositie van gelaagd ontwerp ten goede?

Samenvatting

Recente vooruitgang in beeldgeneratie heeft het eenvoudig gemaakt om hoogwaardige afbeeldingen te produceren. Deze outputs zijn echter inherent afgeplat, waarbij voorgrondelementen, achtergrond en tekst binnen een vast canvas met elkaar verstrengeld raken. Hierdoor blijft flexibele nabewerking na generatie een uitdaging, wat een duidelijke laatste-mijlkloof richting praktische bruikbaarheid blootlegt. Bestaande benaderingen zijn óf afhankelijk van schaarse, propriëtaire gelaagde assets, óf construeren gedeeltelijk synthetische data op basis van beperkte structurele voorkennis. Beide strategieën kennen echter fundamentele uitdagingen op het gebied van schaalbaarheid. In dit werk onderzoeken we of pure synthetische gelaagde data de decompositie van grafisch ontwerp kan verbeteren. We gaan ervan uit dat in grafisch ontwerp een effectieve decompositie niet vereist dat tussenlaagafhankelijkheden even precies worden gemodelleerd als bij de compositie van natuurlijke beelden, aangezien ontwerpelementen vaak opzettelijk worden gerangschikt als modulaire en semantisch scheidbare componenten. Concreet voeren we een data-gerichte studie uit op basis van de CLD-baseline, een state-of-the-art laagdecompositieframework. Op basis van deze baseline construeren we onze eigen synthetische dataset, SynLayers, genereren we tekstuele supervisie met visie-taalmodel en automatiseren we inferentie-inputs met VLM-voorspelde begrenzingskaders. Onze studie onthult drie belangrijke bevindingen: (1) zelfs training met uitsluitend synthetische data kan niet-schaalbare alternatieven zoals de veelgebruikte PrismLayersPro-dataset overtreffen, wat de levensvatbaarheid als schaalbaar en effectief substituut aantoont; (2) de prestaties verbeteren consistent naarmate de schaal van de trainingsdata toeneemt, terwijl de winst begint te verzadigen rond 50K samples; en (3) synthetische data maakt een gebalanceerde controle over laagtellingdistributies mogelijk, waardoor de laagtellingonevenwicht die vaak in real-world datasets wordt waargenomen, wordt vermeden. We hopen dat deze data-gerichte studie een bredere adoptie van synthetische data als praktische basis voor gelaagde ontwerpbewerkingssystemen aanmoedigt.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.