ChatPaper.aiChatPaper

Qwen-Image-Layered: 레이어 분해를 통한 내재적 편집 가능성 향상

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

December 17, 2025
저자: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI

초록

최근의 시각 생성 모델은 모든 시각 콘텐츠가 단일 캔버스에 융합되는 래스터 이미지의 복잡한 특성으로 인해 이미지 편집 과정에서 일관성을 유지하는 데 어려움을 겪습니다. 이와 대조적으로 전문 디자인 도구는 계층적 표현을 사용하여 일관성을 유지하면서도 개별적인 편집을 가능하게 합니다. 이러한 점에 착안하여, 우리는 단일 RGB 이미지를 의미론적으로 분리된 여러 개의 RGBA 레이어로 분해함으로써 고유한 편집 가능성을 제공하는 end-to-end 확산 모델인 Qwen-Image-Layered를 제안합니다. 각 RGBA 레이어는 다른 콘텐츠에 영향을 주지 않고 독립적으로 조작될 수 있습니다. 가변 길이 분해를 지원하기 위해 우리는 세 가지 핵심 구성 요소를 도입했습니다: (1) RGB와 RGBA 이미지의 잠재 표현을 통합하는 RGBA-VAE; (2) 가변적인 수의 이미지 레이어를 분해할 수 있는 VLD-MMDiT(Variable Layers Decomposition MMDiT) 아키텍처; (3) 사전 학습된 이미지 생성 모델을 다중 레이어 이미지 분해기로 전환하는 Multi-stage Training 전략. 더 나아가, 고품질 다중 레이어 학습 이미지의 부족 문제를 해결하기 위해 Photoshop 문서(PSD)에서 다중 레이어 이미지를 추출하고 주석을 다는 파이프라인을 구축했습니다. 실험 결과, 우리의 방법이 분해 품질에서 기존 접근법을 크게 능가하며 일관된 이미지 편집을 위한 새로운 패러다임을 정립함을 확인했습니다. 우리의 코드와 모델은 https://github.com/QwenLM/Qwen-Image-Layered 에 공개되어 있습니다.
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}
PDF223December 19, 2025