Dados sintéticos de projeto em camadas beneficiam a decomposição de projeto em camadas?

Resumo

Avanços recentes na geração de imagens tornaram fácil produzir imagens de alta qualidade. No entanto, esses resultados são inerentemente achatados, entrelaçando elementos de primeiro plano, fundo e texto em uma tela fixa. Como consequência, a edição flexível pós-geração continua desafiadora, revelando um claro gap de última milha em direção à usabilidade prática. Abordagens existentes dependem de ativos em camadas proprietários escassos ou constroem dados parcialmente sintéticos a partir de prioris estruturais limitados. No entanto, ambas as estratégias enfrentam desafios fundamentais de escalabilidade. Neste trabalho, investigamos se dados sintéticos puros em camadas podem melhorar a decomposição de design gráfico. Assumimos que, no design gráfico, a decomposição eficaz não exige modelar dependências entre camadas com tanta precisão quanto na composição de imagens naturais, uma vez que os elementos de design são frequentemente dispostos intencionalmente como componentes modulares e semanticamente separáveis. Concretamente, conduzimos um estudo centrado em dados baseado na linha de base CLD, que é uma estrutura de decomposição de camadas de ponta. Com base nessa linha de base, construímos nosso próprio conjunto de dados sintéticos, SynLayers, geramos supervisão textual usando modelos de linguagem visual e automatizamos entradas de inferência com caixas delimitadoras previstas por VLMs. Nosso estudo revela três descobertas principais: (1) mesmo o treinamento com dados puramente sintéticos pode superar alternativas não escaláveis, como o conjunto de dados amplamente utilizado PrismLayersPro, demonstrando sua viabilidade como substituto escalável e eficaz; (2) o desempenho melhora consistentemente com o aumento da escala dos dados de treinamento, enquanto os ganhos começam a saturar em torno de 50 mil amostras; e (3) dados sintéticos permitem controle equilibrado sobre as distribuições de contagem de camadas, evitando o desequilíbrio de contagem de camadas comumente observado em conjuntos de dados reais. Esperamos que este estudo centrado em dados incentive uma adoção mais ampla de dados sintéticos como base prática para sistemas de edição de design em camadas.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.