Qwen-Image-Layered: Verso l'Editabilità Intrinseca tramite Scomposizione a Strati
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
December 17, 2025
Autori: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI
Abstract
I recenti modelli generativi visivi spesso incontrano difficoltà nel mantenere la coerenza durante l'editing delle immagini a causa della natura intrinsecamente vincolata delle immagini raster, dove tutti gli elementi visivi sono fusi in un'unica superficie. Al contrario, gli strumenti di progettazione professionale utilizzano rappresentazioni a livelli, consentendo modifiche isolate preservando la coerenza. Motivati da questo approccio, proponiamo Qwen-Image-Layered, un modello diffusion end-to-end che scompone un'immagine RGB singola in multipli livelli RGBA semanticamente separati, abilitando un'editabilità intrinseca in cui ogni livello RGBA può essere manipolato indipendentemente senza influenzare gli altri contenuti. Per supportare la scomposizione con numero variabile di livelli, introduciamo tre componenti chiave: (1) un RGBA-VAE per unificare le rappresentazioni latenti di immagini RGB e RGBA; (2) un'architettura VLD-MMDiT (Variable Layers Decomposition MMDiT) in grado di decomporre un numero variabile di livelli immagine; e (3) una strategia di Addestramento Multi-fase per adattare un modello preaddestrato di generazione di immagini a un decompositore di immagini multistrato. Inoltre, per ovviare alla carenza di immagini multistrato di alta qualità per l'addestramento, abbiamo sviluppato una pipeline per estrarre e annotare immagini multistrato da documenti Photoshop (PSD). Gli esperimenti dimostrano che il nostro metodo supera significativamente gli approcci esistenti in termini di qualità della scomposizione e stabilisce un nuovo paradigma per l'editing coerente delle immagini. Il nostro codice e i modelli sono rilasciati su https://github.com/QwenLM/Qwen-Image-Layered.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}