LaDe: Geração e Decomposição Unificada de Mídias Gráficas em Múltiplas Camadas

Resumo

A geração de camadas de design de mídia permite a criação de documentos de design totalmente editáveis e em camadas, como cartazes, folhetos e logotipos, utilizando apenas instruções em linguagem natural. Os métodos existentes ou restringem as saídas a um número fixo de camadas ou exigem que cada camada contenha apenas regiões espacialmente contínuas, fazendo com que a contagem de camadas escale linearmente com a complexidade do design. Propomos o LaDe (Layered Media Design), uma estrutura de difusão latente que gera um número flexível de camadas semanticamente significativas. O LaDe combina três componentes: um expansor de instruções baseado em LLM que transforma uma intenção curta do usuário em descrições estruturadas por camada que orientam a geração, um Transformer de Difusão Latente com um mecanismo de codificação posicional RoPE 4D que gera conjuntamente o design de mídia completo e suas camadas RGBA constituintes, e um VAE RGBA que decodifica cada camada com suporte completo ao canal alfa. Ao condicionar a amostras de camadas durante o treinamento, nossa estrutura unificada suporta três tarefas: geração de imagem a partir de texto, geração de design de mídia em camadas a partir de texto e decomposição de design de mídia. Comparamos o LaDe com o Qwen-Image-Layered nas tarefas de texto-para-camadas e imagem-para-camadas no conjunto de testes Crello. O LaDe supera o Qwen-Image-Layered na geração texto-para-camadas ao melhorar o alinhamento texto-camada, conforme validado por dois avaliadores do tipo VLM-como-juiz (GPT-4o mini e Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe: Geração e Decomposição Unificada de Mídias Gráficas em Múltiplas Camadas

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Resumo

Support