Les données de conception synthétique en couches profitent-elles à la décomposition de conception en couches ?

Résumé

Les récentes avancées en matière de génération d'images ont facilité la production d'images de haute qualité. Cependant, ces sorties sont intrinsèquement aplaties, entremêlant les éléments de premier plan, l'arrière-plan et le texte dans un canevas fixe. Par conséquent, l'édition flexible après génération reste difficile, révélant un écart de dernier kilomètre évident vers une utilisabilité pratique. Les approches existantes reposent soit sur des ressources de calques propriétaires rares, soit construisent des données partiellement synthétiques à partir de préalables structurels limités. Cependant, ces deux stratégies font face à des défis fondamentaux en matière de passage à l'échelle. Dans ce travail, nous étudions si des données de calques purement synthétiques peuvent améliorer la décomposition de la conception graphique. Nous partons de l'hypothèse que, dans la conception graphique, une décomposition efficace ne nécessite pas de modéliser les dépendances entre calques avec autant de précision que dans la composition d'images naturelles, car les éléments de conception sont souvent disposés intentionnellement en tant que composants modulaires et sémantiquement séparables. Concrètement, nous menons une étude centrée sur les données basée sur le référentiel CLD, un cadre de décomposition de calques à la pointe de la technologie. À partir de ce référentiel, nous construisons notre propre jeu de données synthétique, SynLayers, générons une supervision textuelle à l'aide de modèles de langage visuel, et automatisons les entrées d'inférence avec des boîtes englobantes prédites par VLM. Notre étude révèle trois résultats clés : (1) même un entraînement avec des données purement synthétiques peut surpasser des alternatives non passables à l'échelle telles que le jeu de données largement utilisé PrismLayersPro, démontrant sa viabilité en tant que substitut efficace et passable à l'échelle ; (2) les performances s'améliorent constamment avec l'augmentation de l'échelle des données d'entraînement, tandis que les gains commencent à saturent autour de 50 000 échantillons ; et (3) les données synthétiques permettent un contrôle équilibré des distributions du nombre de calques, évitant le déséquilibre souvent observé dans les ensembles de données réelles. Nous espérons que cette étude centrée sur les données encouragera une adoption plus large des données synthétiques en tant que fondation pratique pour les systèmes d'édition de conception en calques.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.