LaDe: Uniforme Generatie en Ontleding van Gelaagde Grafische Media

Samenvatting

Met het genereren van medialagen kan de creatie van volledig bewerkbare, gelaagde ontwerpdocumenten zoals posters, flyers en logo's, uitsluitend met natuurlijke taalprompts. Bestaande methodes beperken de output ofwel tot een vast aantal lagen, of vereisen dat elke laag alleen ruimtelijk aaneengesloten regio's bevat, waardoor het aantal lagen lineair toeneemt met de ontwerpcomplexiteit. Wij stellen LaDe (Layered Media Design) voor, een latent diffussieraamwerk dat een flexibel aantal semantisch betekenisvolle lagen genereert. LaDe combineert drie componenten: een op een grote taalmodel gebaseerde prompt-uitbreider die een korte gebruikersintentie omzet in gestructureerde per-laag beschrijvingen die de generatie sturen, een Latent Diffusion Transformer met een 4D RoPE positionele coderingsmechanisme die gezamenlijk het volledige media-ontwerp en zijn samenstellende RGBA-lagen genereert, en een RGBA VAE die elke laag decodeert met volledige ondersteuning voor alfacanalen. Door conditionering op laagmonsters tijdens de training ondersteunt ons uniforme raamwerk drie taken: tekst-naar-beeldgeneratie, tekst-naar-lagen media-ontwerp generatie, en media-ontwerp decompositie. Wij vergelijken LaDe met Qwen-Image-Layered op tekst-naar-lagen en beeld-naar-lagen taken op de Crello testset. LaDe presteert beter dan Qwen-Image-Layered in tekst-naar-lagen generatie door een verbeterde uitlijning tussen tekst en lagen, zoals gevalideerd door twee VLM-als-rechter evaluatoren (GPT-4o mini en Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe: Uniforme Generatie en Ontleding van Gelaagde Grafische Media

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Samenvatting

Support