LaDe: Единая генерация и декомпозиция многослойных графических медиа

Аннотация

Генерация слоев медиадизайна позволяет создавать полностью редактируемые многослойные проектные документы, такие как плакаты, листовки и логотипы, используя только текстовые промпты на естественном языке. Существующие методы либо ограничивают вывод фиксированным количеством слоев, либо требуют, чтобы каждый слой содержал только пространственно непрерывные области, что приводит к линейному росту числа слоев со сложностью дизайна. Мы предлагаем LaDe (Layered Media Design) — фреймворк на основе латентной диффузии, который генерирует переменное количество семантически значимых слоев. LaDe объединяет три компонента: расширитель промптов на основе LLM, преобразующий краткое описание намерения пользователя в структурированные описания для каждого слоя, которые направляют генерацию; Latent Diffusion Transformer с механизмом позиционного кодирования 4D RoPE, совместно генерирующий полный медиадизайн и его составные RGBA-слои; и RGBA VAE, декодирующий каждый слой с полной поддержкой альфа-канала. Благодаря условию на сэмплы слоев во время обучения, наш унифицированный фреймворк поддерживает три задачи: генерацию изображений по тексту, генерацию многослойного медиадизайна по тексту и декомпозицию медиадизайна. Мы сравниваем LaDe с Qwen-Image-Layered на задачах генерации слоев по тексту и изображению на тестовом наборе Crello. LaDe превосходит Qwen-Image-Layered в генерации слоев по тексту, улучшая соответствие между текстом и слоями, что подтверждено двумя оценщиками VLM-as-a-judge (GPT-4o mini и Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe: Единая генерация и декомпозиция многослойных графических медиа

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Аннотация

Support