Qwen-Image-Layered: Hacia la Editabilidad Inherente mediante Descomposición por Capas
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
December 17, 2025
Autores: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI
Resumen
Los modelos generativos visuales recientes suelen presentar problemas de coherencia durante la edición de imágenes debido a la naturaleza entrelazada de las imágenes rasterizadas, donde todo el contenido visual se fusiona en un único lienzo. Por el contrario, las herramientas de diseño profesional emplean representaciones por capas, permitiendo ediciones aisladas mientras se preserva la coherencia. Motivados por esto, proponemos Qwen-Image-Layered, un modelo de difusión de extremo a extremo que descompone una imagen RGB única en múltiples capas RGBA semánticamente desenredadas, permitiendo una editabilidad inherente donde cada capa RGBA puede manipularse independientemente sin afectar otro contenido. Para soportar la descomposición de longitud variable, introducimos tres componentes clave: (1) un RGBA-VAE para unificar las representaciones latentes de imágenes RGB y RGBA; (2) una arquitectura VLD-MMDiT (Variable Layers Decomposition MMDiT) capaz de descomponer un número variable de capas de imagen; y (3) una estrategia de Entrenamiento Multietapa para adaptar un modelo preentrenado de generación de imágenes en un descomponedor de imágenes multicapa. Además, para abordar la escasez de imágenes multicapa de alta calidad para entrenamiento, construimos un pipeline para extraer y anotar imágenes multicapa a partir de documentos de Photoshop (PSD). Los experimentos demuestran que nuestro método supera significativamente a los enfoques existentes en calidad de descomposición y establece un nuevo paradigma para la edición coherente de imágenes. Nuestro código y modelos están disponibles en https://github.com/QwenLM/Qwen-Image-Layered.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}