LaDe: Generazione e Scomposizione Unificata di Media Grafici Multi-Livello

Abstract

La generazione di livelli di design multimediale consente la creazione di documenti di design completamente modificabili e stratificati, come poster, volantini e loghi, utilizzando esclusivamente prompt in linguaggio naturale. I metodi esistenti limitano l'output a un numero fisso di livelli o richiedono che ogni livello contenga solo regioni spazialmente continue, facendo sì che il numero di livelli aumenti linearmente con la complessità del design. Proponiamo LaDe (Layered Media Design), un framework di diffusione latente che genera un numero flessibile di livelli semanticamente significativi. LaDe combina tre componenti: un espansore di prompt basato su LLM che trasforma l'intento breve dell'utente in descrizioni strutturate per livello che guidano la generazione, un Transformer a Diffusione Latente con un meccanismo di codifica posizionale RoPE 4D che genera congiuntamente il design multimediale completo e i suoi livelli costitutivi RGBA, e un VAE RGBA che decodifica ogni livello con pieno supporto del canale alfa. Condizionando il training su campioni di livelli, il nostro framework unificato supporta tre compiti: generazione di immagini da testo, generazione di design multimediali stratificati da testo e scomposizione di design multimediali. Confrontiamo LaDe con Qwen-Image-Layered sui compiti di generazione da testo a livelli e da immagine a livelli sul set di test Crello. LaDe supera Qwen-Image-Layered nella generazione da testo a livelli migliorando l'allineamento testo-livello, come validato da due valutatori VLM-as-a-judge (GPT-4o mini e Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe: Generazione e Scomposizione Unificata di Media Grafici Multi-Livello

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Abstract

Support