可逆的多層画像生成のための制御可能なレイヤ分解
Controllable Layer Decomposition for Reversible Multi-Layer Image Generation
November 20, 2025
著者: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI
要旨
本論文では、ラスター画像の細粒度かつ制御可能な多層分離を実現する手法であるControllable Layer Decomposition(CLD)を提案する。実用的なワークフローでは、デザイナーは通常、最終的なラスター画像に合成する前に、各RGBAレイヤーを個別に生成および編集する。しかし、このプロセスは不可逆的である。一度合成されると、レイヤーレベルでの編集は不可能になる。既存手法は一般的に画像マッティングやインペインティングに依存しているが、制御性とセグメンテーション精度に限界がある。これらの課題に対処するため、我々は二つの主要モジュールを提案する。画像要素を異なるレイヤーに分離し、細粒度の制御を可能にするLayerDecompose-DiT(LD-DiT)と、ターゲット画像情報を多層トークンに注入して精密な条件付き生成を実現するMulti-Layer Conditional Adapter(MLCA)である。包括的評価を可能にするため、新たなベンチマークを構築し、専用の評価指標を導入した。実験結果は、CLDが分解品質と制御性の両方において、既存手法を一貫して凌駕することを示している。さらに、CLDによって分離されたレイヤーは、PowerPointなどの一般的なデザインツールで直接操作可能であり、実世界の創造的ワークフローにおける実用性と適用性の高さを強調している。
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.