ChatPaper.aiChatPaper

Qwen-Image-Layered: レイヤ分解による内在的編集可能性の実現を目指して

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

December 17, 2025
著者: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu
cs.AI

要旨

近年の視覚生成モデルは、ラスター画像の絡み合った性質により、画像編集における一貫性の維持に苦戦することが多い。ラスター画像では全ての視覚コンテンツが単一のキャンバスに融合されている。一方、プロフェッショナルなデザインツールはレイヤー表現を採用しており、一貫性を保ちつつ個別の編集を可能にしている。この観点に着想を得て、我々はQwen-Image-Layeredを提案する。これは単一のRGB画像を複数の意味的に分離されたRGBAレイヤーに分解するエンドツーエンドの拡散モデルであり、本質的な編集可能性を実現する。各RGBAレイヤーは他のコンテンツに影響を与えることなく独立して操作できる。可変長の分解を実現するため、以下の3つの主要コンポーネントを導入した:(1) RGB画像とRGBA画像の潜在表現を統一するRGBA-VAE、(2) 可変数の画像レイヤー分解が可能なVLD-MMDiT(Variable Layers Decomposition MMDiT)アーキテクチャ、(3) 事前学習済み画像生成モデルを多層画像分解器に適応させる多段階トレーニング戦略である。さらに、高品質な多層トレーニング画像の不足に対処するため、Photoshopドキュメント(PSD)から多層画像を抽出・注釈するパイプラインを構築した。実験により、本手法が分解品質において既存手法を大幅に上回り、一貫性のある画像編集の新たなパラダイムを確立することを実証した。コードとモデルはhttps://github.com/QwenLM/Qwen-Image-Layeredで公開されている。
English
Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose Qwen-Image-Layered, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling inherent editability, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on https://github.com/QwenLM/Qwen-Image-Layered{https://github.com/QwenLM/Qwen-Image-Layered}
PDF223December 19, 2025