LaDe : Génération et décomposition unifiées de médias graphiques multicouches

Résumé

La génération de calques de conception médiatique permet de créer des documents de conception entièrement éditables et superposés, tels que des affiches, des dépliants et des logos, en utilisant uniquement des invites en langage naturel. Les méthodes existantes limitent soit les sorties à un nombre fixe de calques, soit exigent que chaque calque ne contienne que des régions spatialement continues, ce qui entraîne une augmentation linéaire du nombre de calques avec la complexité de la conception. Nous proposons LaDe (Layered Media Design), un framework de diffusion latente qui génère un nombre flexible de calques sémantiquement significatifs. LaDe combine trois composants : un expanseur d'invites basé sur un LLM qui transforme une intention utilisateur concise en descriptions structurées par calque guidant la génération, un Transformer à Diffusion Latente avec un mécanisme d'encodage positionnel RoPE 4D qui génère conjointement la conception médiatique complète et ses calques RGBA constitutifs, et un VAE RGBA qui décode chaque calque avec une prise en charge complète du canal alpha. En se conditionnant sur des échantillons de calques pendant l'entraînement, notre framework unifié prend en charge trois tâches : la génération d'image à partir de texte, la génération de conception médiatique superposée à partir de texte, et la décomposition de conception médiatique. Nous comparons LaDe à Qwen-Image-Layered sur les tâches de génération texte-vers-calques et image-vers-calques sur l'ensemble de test Crello. LaDe surpasse Qwen-Image-Layered en génération texte-vers-calques en améliorant l'alignement entre le texte et les calques, comme le valident deux évaluateurs utilisant un VLM-comme-juge (GPT-4o mini et Qwen3-VL).

English

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

LaDe : Génération et décomposition unifiées de médias graphiques multicouches

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Résumé

Support