Controleerbare Laagdecompositie voor Omkeerbare Multi-Laag Beeldgeneratie
Controllable Layer Decomposition for Reversible Multi-Layer Image Generation
November 20, 2025
Auteurs: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI
Samenvatting
Dit werk presenteert Controleerbare Laagdecompositie (CLD), een methode voor het bereiken van fijnmazige en controleerbare meerlaagse scheiding van rasterafbeeldingen. In praktische workflows genereren en bewerken ontwerpers typisch elke RGBA-laag onafhankelijk voordat ze worden samengesteld tot een uiteindelijke rasterafbeelding. Dit proces is echter onomkeerbaar: eenmaal samengesteld is bewerking op laagniveau niet langer mogelijk. Bestaande methoden zijn vaak gebaseerd op image matting en inpainting, maar blijven beperkt in controleerbaarheid en segmentatienauwkeurigheid. Om deze uitdagingen aan te pakken, stellen we twee kernmodules voor: LayerDecompose-DiT (LD-DiT), welke beeldcomponenten ontkoppelt in afzonderlijke lagen en fijnmazige controle mogelijk maakt; en de Multi-Layer Conditionele Adapter (MLCA), welke doelbeeldinformatie injecteert in meerlaagse tokens om precieze conditionele generatie te bereiken. Om een uitgebreide evaluatie mogelijk te maken, bouwen we een nieuwe benchmark en introduceren we op maat gemaakte evaluatiemetrieken. Experimentele resultaten tonen aan dat CLD consequent superieur presteert ten opzichte van bestaande methoden, zowel in decompositiekwaliteit als in controleerbaarheid. Bovendien kunnen de door CLD gescheiden lagen direct worden gemanipuleerd in veelgebruikte ontwerptools zoals PowerPoint, wat de praktische waarde en toepasbaarheid in real-world creatieve workflows onderstreept.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.