¿Los datos sintéticos de diseño en capas benefician la descomposición del diseño en capas?

Resumen

Avances recientes en la generación de imágenes han facilitado la producción de imágenes de alta calidad. Sin embargo, estos resultados son inherentemente planos, fusionando elementos del primer plano, fondo y texto dentro de un lienzo fijo. Como consecuencia, la edición flexible posterior a la generación sigue siendo un desafío, revelando una clara brecha de último kilómetro hacia la usabilidad práctica. Los enfoques existentes dependen de activos en capas patentados y escasos, o construyen datos parcialmente sintéticos a partir de priors estructurales limitados. Ambas estrategias enfrentan desafíos fundamentales en escalabilidad. En este trabajo, investigamos si los datos sintéticos puros en capas pueden mejorar la descomposición del diseño gráfico. Partimos del supuesto de que, en el diseño gráfico, una descomposición efectiva no requiere modelar las dependencias entre capas con tanta precisión como en la composición de imágenes naturales, ya que los elementos de diseño suelen estar dispuestos intencionalmente como componentes modulares y semánticamente separables. Concretamente, realizamos un estudio centrado en datos basado en la línea base CLD, un marco de descomposición de capas de última generación. Sobre esta línea base, construimos nuestro propio conjunto de datos sintéticos, SynLayers, generamos supervisión textual utilizando modelos de lenguaje visual, y automatizamos las entradas de inferencia con cajas delimitadoras predichas por VLM. Nuestro estudio revela tres hallazgos clave: (1) incluso entrenar únicamente con datos sintéticos puede superar alternativas no escalables como el conjunto de datos PrismLayersPro, ampliamente utilizado, demostrando su viabilidad como sustituto escalable y efectivo; (2) el rendimiento mejora consistentemente al aumentar la escala de los datos de entrenamiento, aunque las ganancias comienzan a saturarse alrededor de 50K muestras; y (3) los datos sintéticos permiten un control equilibrado sobre las distribuciones de recuento de capas, evitando el desequilibrio en el recuento de capas comúnmente observado en conjuntos de datos reales. Esperamos que este estudio centrado en datos fomente una adopción más amplia de datos sintéticos como base práctica para sistemas de edición de diseño en capas.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.