ChatPaper.aiChatPaper

Qwen-Image-Layered : Vers une éditiabilité inhérente via la décomposition en couches

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

December 17, 2025
papers.authors: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI

papers.abstract

Les modèles génératifs visuels récents éprouvent souvent des difficultés à maintenir la cohérence lors de l'édition d'images en raison de la nature entrelacée des images matricielles, où tout le contenu visuel est fusionné en une seule toile. En revanche, les outils de conception professionnels utilisent des représentations en calques, permettant des modifications isolées tout en préservant la cohérence. Motivés par cela, nous proposons Qwen-Image-Layered, un modèle de diffusion de bout en bout qui décompose une image RVB unique en plusieurs calques RVBA sémantiquement désentrelacés, permettant une éditation inhérente, où chaque calque RVBA peut être manipulé indépendamment sans affecter les autres contenus. Pour prendre en charge la décomposition à longueur variable, nous introduisons trois composants clés : (1) un RVBA-VAE pour unifier les représentations latentes des images RVB et RVBA ; (2) une architecture VLD-MMDiT (Variable Layers Decomposition MMDiT) capable de décomposer un nombre variable de calques d'image ; et (3) une stratégie d'Entraînement Multi-étapes pour adapter un modèle préentraîné de génération d'image en un décomposeur d'images multicouches. De plus, pour pallier la rareté des images multicouches de haute qualité pour l'entraînement, nous avons construit un pipeline pour extraire et annoter des images multicouches à partir de documents Photoshop (PSD). Les expériences démontrent que notre méthode surpasse significativement les approches existantes en qualité de décomposition et établit un nouveau paradigme pour l'édition d'images cohérente. Notre code et nos modèles sont publiés sur https://github.com/QwenLM/Qwen-Image-Layered.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}
PDF223December 19, 2025