LaDe: Generación y Descomposición Unificada de Medios Gráficos Multicapa

Resumen

La generación de capas de diseño multimedia permite la creación de documentos de diseño completamente editables y en capas, como pósteres, folletos y logotipos, utilizando únicamente instrucciones en lenguaje natural. Los métodos existentes restringen las salidas a un número fijo de capas o requieren que cada capa contenga únicamente regiones espacialmente continuas, lo que provoca que el número de capas escale linealmente con la complejidad del diseño. Proponemos LaDe (Layered Media Design), un marco de difusión latente que genera un número flexible de capas semánticamente significativas. LaDe combina tres componentes: un expansor de instrucciones basado en LLM que transforma una intención breve del usuario en descripciones estructuradas por capas que guían la generación, un Transformer de Difusión Latente con un mecanismo de codificación posicional RoPE 4D que genera conjuntamente el diseño multimedia completo y sus capas RGBA constituyentes, y un VAE RGBA que decodifica cada capa con soporte completo para el canal alfa. Al condicionar con muestras de capas durante el entrenamiento, nuestro marco unificado soporta tres tareas: generación de imagen a partir de texto, generación de diseño multimedia en capas a partir de texto y descomposición de diseño multimedia. Comparamos LaDe con Qwen-Image-Layered en las tareas de texto-a-capas e imagen-a-capas en el conjunto de prueba Crello. LaDe supera a Qwen-Image-Layered en la generación de texto-a-capas al mejorar la alineación entre el texto y las capas, según lo validado por dos evaluadores VLM-como-juez (GPT-4o mini y Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe: Generación y Descomposición Unificada de Medios Gráficos Multicapa

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Resumen

Support