ChatPaper.aiChatPaper

Qwen-Image-Layered: Naar inherente bewerkbaarheid via laagontleding

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

December 17, 2025
Auteurs: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI

Samenvatting

Recente visuele generatieve modellen hebben vaak moeite met consistentie tijdens beeldbewerking vanwege de verweven aard van rasterafbeeldingen, waarbij alle visuele inhoud wordt samengesmolten tot een enkel canvas. Daarentegen gebruiken professionele ontwerptools gelaagde representaties, waardoor geïsoleerde bewerkingen mogelijk zijn terwijl de consistentie behouden blijft. Gemotiveerd door dit inzicht presenteren we Qwen-Image-Layered, een end-to-end diffusiemodel dat een enkele RGB-afbeelding ontleedt in meerdere semantisch ontvlochten RGBA-lagen. Dit maakt inherente bewerkbaarheid mogelijk, waarbij elke RGBA-laag onafhankelijk gemanipuleerd kan worden zonder andere inhoud te beïnvloeden. Om ontleding met variabele laagaantallen te ondersteunen, introduceren we drie kerncomponenten: (1) een RGBA-VAE om de latente representaties van RGB- en RGBA-afbeeldingen te unificeren; (2) een VLD-MMDiT-architectuur (Variable Layers Decomposition MMDiT) die in staat is een variabel aantal beeldlagen te ontbinden; en (3) een meerfasen-trainingsstrategie om een vooraf getraind beeldgeneratiemodel aan te passen tot een multilayer-beeldontleder. Verder ontwikkelen we, om het gebrek aan hoogwaardige multilayer-trainingsbeelden aan te pakken, een pijplijn om multilayer-beelden te extraheren en annoteren uit Photoshop-documenten (PSD). Experimenten tonen aan dat onze methode bestaande benaderingen significant overtreft in ontledingskwaliteit en een nieuw paradigma vestigt voor consistente beeldbewerking. Onze code en modellen zijn vrijgegeven op https://github.com/QwenLM/Qwen-Image-Layered.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}
PDF223December 19, 2025