Steuerbare Schichtzerlegung für reversible Mehrschicht-Bildgenerierung
Controllable Layer Decomposition for Reversible Multi-Layer Image Generation
November 20, 2025
papers.authors: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI
papers.abstract
Diese Arbeit stellt Controllable Layer Decomposition (CLD) vor, eine Methode zur fein granularen und steuerbaren Mehrschichtentrennung von Rasterbildern. In praktischen Arbeitsabläufen erstellen und bearbeiten Designer typischerweise jede RGBA-Ebene unabhängig, bevor sie zu einem finalen Rasterbild zusammengesetzt werden. Dieser Prozess ist jedoch irreversibel: Sobald die Komposition erfolgt ist, ist eine Bearbeitung auf Ebenenebene nicht mehr möglich. Bestehende Methoden stützen sich häufig auf Image Matting und Inpainting, sind in ihrer Steuerbarkeit und Segmentierungsgenauigkeit jedoch nach wie vor eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir zwei Schlüsselmodule vor: LayerDecompose-DiT (LD-DiT), das Bildelemente in verschiedene Ebenen entkoppelt und eine fein granulare Steuerung ermöglicht; und den Multi-Layer Conditional Adapter (MLCA), der Informationen des Zielbildes in Multi-Layer-Tokens injiziert, um eine präzise konditionale Generierung zu erreichen. Um eine umfassende Evaluation zu ermöglichen, erstellen wir einen neuen Benchmark und führen maßgeschneiderte Bewertungsmetriken ein. Experimentelle Ergebnisse zeigen, dass CLD bestehende Methoden sowohl in der Zerlegungsqualität als auch in der Steuerbarkeit konsistent übertrifft. Darüber hinaus können die durch CLD getrennten Ebenen direkt in gängigen Design-Tools wie PowerPoint manipuliert werden, was ihren praktischen Wert und ihre Anwendbarkeit in realen kreativen Workflows unterstreicht.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.