Способствуют ли синтетические данные многослойного проектирования декомпозиции многослойного проектирования?

Аннотация

Недавние достижения в области генерации изображений позволили легко создавать высококачественные изображения. Однако эти результаты по своей сути являются плоскими, объединяя элементы переднего плана, фон и текст в фиксированном холсте. В результате гибкое редактирование после генерации по-прежнему остается сложной задачей, выявляя явный разрыв последней мили на пути к практической применимости. Существующие подходы либо полагаются на редкие проприетарные послойные ресурсы, либо создают частично синтетические данные на основе ограниченных структурных априорных знаний. Однако обе стратегии сталкиваются с фундаментальными проблемами масштабируемости. В данной работе мы исследуем, могут ли чисто синтетические послойные данные улучшить декомпозицию графического дизайна. Мы исходим из предположения, что в графическом дизайне эффективная декомпозиция не требует моделирования межслойных зависимостей так же точно, как при композиции естественных изображений, поскольку элементы дизайна часто намеренно располагаются как модульные и семантически разделяемые компоненты. Конкретно, мы проводим исследование, ориентированное на данные, на основе базовой модели CLD, которая является современной структурой декомпозиции слоев. Основываясь на этой базовой модели, мы создаем собственный синтетический набор данных SynLayers, генерируем текстовое супервизорное обучение с использованием моделей зрения и языка (VLM) и автоматизируем входные данные для вывода с помощью ограничивающих рамок, предсказанных VLM. Наше исследование выявляет три ключевых вывода: (1) даже обучение на чисто синтетических данных может превзойти немасштабируемые альтернативы, такие как широко используемый набор данных PrismLayersPro, демонстрируя его жизнеспособность в качестве масштабируемой и эффективной замены; (2) производительность последовательно улучшается с увеличением масштаба обучающих данных, при этом прирост начинает насыщаться при около 50 тыс. образцов; и (3) синтетические данные обеспечивают сбалансированный контроль распределения количества слоев, избегая дисбаланса количества слоев, обычно наблюдаемого в реальных наборах данных. Мы надеемся, что это исследование, ориентированное на данные, будет способствовать более широкому внедрению синтетических данных в качестве практической основы для систем редактирования многослойного дизайна.

English

Recent advances in image generation have made it easy to produce high-quality images. However, these outputs are inherently flattened, entangling foreground elements, background, and text within a fixed canvas. As a result, flexible post-generation editing remains challenging, revealing a clear last-mile gap toward practical usability. Existing approaches either rely on scarce proprietary layered assets or construct partially synthetic data from limited structural priors. However, both strategies face fundamental challenges in scalability. In this work, we investigate whether pure synthetic layered data can improve graphic design decomposition. We make the assumption that, in graphic design, effective decomposition does not require modeling inter-layer dependencies as precisely as in natural-image composition, since design elements are often intentionally arranged as modular and semantically separable components. Concretely, we conduct a data-centric study based on CLD baseline, which is a state-of-the-art layer decomposition framework. Based on the baseline, we construct our own synthetic dataset, SynLayers, generate textual supervision using vision language models, and automate inference inputs with VLM-predicted bounding boxes. Our study reveals three key findings: (1) even training with purely synthetic data can outperform non-scalable alternatives such as the widely used PrismLayersPro dataset, demonstrating its viability as a scalable and effective substitute; (2) performance consistently improves with increased training data scale, while gains begin to saturate at around 50K samples; and (3) synthetic data enables balanced control over layer-count distributions, avoiding the layer-count imbalance commonly observed in real-world datasets. We hope this data-centric study encourages broader adoption of synthetic data as a practical foundation for layered design editing systems.