ChatPaper.aiChatPaper

Scomposizione Controllabile a Strati per la Generazione Reversibile di Immagini Multi-Livello

Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

November 20, 2025
Autori: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI

Abstract

Questo lavoro presenta la Decomposione Controllabile a Livelli (CLD), un metodo per ottenere una separazione multi-livello fine e controllabile di immagini raster. Nei flussi di lavoro pratici, i designer tipicamente generano e modificano ogni livello RGBA in modo indipendente prima di comporli in un'immagine raster finale. Tuttavia, questo processo è irreversibile: una volta composte, la modifica a livello di layer non è più possibile. I metodi esistenti si basano comunemente sul matting e sull'inpainting di immagini, ma rimangono limitati in termini di controllabilità e precisione di segmentazione. Per affrontare queste sfide, proponiamo due moduli chiave: LayerDecompose-DiT (LD-DiT), che disaccoppia gli elementi dell'immagine in livelli distinti e consente un controllo granulare; e l'Adattatore Condizionale Multi-Livello (MLCA), che inietta le informazioni dell'immagine target nei token multi-livello per ottenere una generazione condizionale precisa. Per consentire una valutazione completa, costruiamo un nuovo benchmark e introduciamo metriche di valutazione su misura. I risultati sperimentali mostrano che CLD supera costantemente i metodi esistenti sia nella qualità della decomposizione che nella controllabilità. Inoltre, i livelli separati prodotti da CLD possono essere manipolati direttamente in strumenti di progettazione comunemente utilizzati come PowerPoint, evidenziandone il valore pratico e l'applicabilità nei flussi di lavoro creativi reali.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.
PDF82December 3, 2025