Qwen-Image-Layered: Hin zu inhärenter Editierbarkeit durch Schichtzerlegung
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
December 17, 2025
papers.authors: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI
papers.abstract
Aktuelle visuelle Generative Modelle haben häufig mit Inkonsistenzen bei der Bildbearbeitung zu kämpfen, was auf die verschränkte Natur von Rasterbildern zurückzuführen ist, bei der alle visuellen Inhalte zu einer einzigen Bildebene verschmolzen sind. Im Gegensatz dazu verwenden professionelle Design-Tools geschichtete Darstellungen, die isolierte Bearbeitungen bei gleichzeitiger Wahrung der Konsistenz ermöglichen. Ausgehend von dieser Beobachtung schlagen wir Qwen-Image-Layered vor, ein End-to-End-Diffusionsmodell, das ein einzelnes RGB-Bild in mehrere semantisch entflochtene RGBA-Ebenen zerlegt. Dies ermöglicht eine inhärente Bearbeitbarkeit, bei der jede RGBA-Ebene unabhängig manipuliert werden kann, ohne andere Inhalte zu beeinflussen. Um die Zerlegung in eine variable Anzahl von Ebenen zu unterstützen, führen wir drei Schlüsselkomponenten ein: (1) ein RGBA-VAE zur Vereinheitlichung der latenten Darstellungen von RGB- und RGBA-Bildern; (2) eine VLD-MMDiT-Architektur (Variable Layers Decomposition MMDiT), die in der Lage ist, eine variable Anzahl von Bildebenen zu zerlegen; und (3) eine mehrstufige Trainingsstrategie, um ein vortrainiertes Bildgenerierungsmodell an die Aufgabe der Mehrschicht-Bildzerlegung anzupassen. Darüber hinaus haben wir, um dem Mangel an hochwertigen Mehrschicht-Trainingsbildern entgegenzuwirken, eine Pipeline entwickelt, um mehrschichtige Bilder aus Photoshop-Dokumenten (PSD) zu extrahieren und zu annotieren. Experimente zeigen, dass unsere Methode bestehende Ansätze in der Zerlegungsqualität deutlich übertrifft und ein neues Paradigma für konsistente Bildbearbeitung etabliert. Unser Code und unsere Modelle sind unter https://github.com/QwenLM/Qwen-Image-Layered veröffentlicht.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}