ChatPaper.aiChatPaper

Décomposition de Couches Contrôlable pour la Génération d'Images Multi-Couches Réversible

Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

November 20, 2025
papers.authors: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI

papers.abstract

Ce travail présente la Décomposition Contrôlable par Couches (CLD), une méthode permettant d'obtenir une séparation multi-couches fine et contrôlable d'images matricielles. Dans les flux de travail pratiques, les concepteurs génèrent et modifient généralement chaque couche RGBA indépendamment avant de les composer en une image matricielle finale. Cependant, ce processus est irréversible : une fois composée, l'édition au niveau des couches n'est plus possible. Les méthodes existantes reposent généralement sur la matting et l'inpainting d'images, mais restent limitées en termes de contrôlabilité et de précision de segmentation. Pour relever ces défis, nous proposons deux modules clés : LayerDecompose-DiT (LD-DiT), qui découple les éléments de l'image en couches distinctes et permet un contrôle granulaire ; et le Multi-Layer Conditional Adapter (MLCA), qui injecte les informations de l'image cible dans des tokens multi-couches pour réaliser une génération conditionnelle précise. Pour permettre une évaluation complète, nous construisons un nouveau benchmark et introduisons des métriques d'évaluation adaptées. Les résultats expérimentaux montrent que CLD surpasse constamment les méthodes existantes tant en qualité de décomposition qu'en contrôlabilité. De plus, les couches séparées produites par CLD peuvent être directement manipulées dans des outils de conception courants tels que PowerPoint, soulignant sa valeur pratique et son applicabilité dans les flux de travail créatifs réels.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.
PDF92February 7, 2026