Qwen-Image-Layered: Rumo à Capacidade de Edição Inerente por meio da Decomposição em Camadas
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
December 17, 2025
Autores: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI
Resumo
Os modelos visuais generativos recentes frequentemente enfrentam dificuldades de consistência durante a edição de imagens devido à natureza entrelaçada das imagens raster, onde todo o conteúdo visual é fundido em uma única tela. Em contraste, as ferramentas de design profissional empregam representações em camadas, permitindo edições isoladas enquanto preservam a consistência. Motivados por isso, propomos o Qwen-Image-Layered, um modelo de difusão de ponta a ponta que decompõe uma única imagem RGB em múltiplas camadas RGBA semanticamente desacopladas, permitindo uma editabilidade inerente, onde cada camada RGBA pode ser manipulada independentemente sem afetar outro conteúdo. Para suportar a decomposição de comprimento variável, introduzimos três componentes principais: (1) um RGBA-VAE para unificar as representações latentes de imagens RGB e RGBA; (2) uma arquitetura VLD-MMDiT (Variable Layers Decomposition MMDiT) capaz de decompor um número variável de camadas de imagem; e (3) uma estratégia de Treinamento Multiestágio para adaptar um modelo pré-treinado de geração de imagens em um decompositor de imagens multicamadas. Adicionalmente, para enfrentar a escassez de imagens multicamadas de alta qualidade para treinamento, construímos um *pipeline* para extrair e anotar imagens multicamadas a partir de documentos do Photoshop (PSD). Experimentos demonstram que nosso método supera significativamente as abordagens existentes em qualidade de decomposição e estabelece um novo paradigma para edição consistente de imagens. Nosso código e modelos estão disponíveis em https://github.com/QwenLM/Qwen-Image-Layered.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}