ChatPaper.aiChatPaper

Descomposición Controlable de Capas para la Generación Reversible de Imágenes Multicapa

Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

November 20, 2025
Autores: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI

Resumen

Este trabajo presenta la Descomposición Controlable de Capas (CLD), un método para lograr una separación multicapa de imágenes rasterizadas con granularidad fina y controlable. En los flujos de trabajo prácticos, los diseñadores normalmente generan y editan cada capa RGBA de forma independiente antes de componerlas en una imagen rasterizada final. Sin embargo, este proceso es irreversible: una vez compuestas, la edición a nivel de capa ya no es posible. Los métodos existentes suelen basarse en *matting* y restauración de imágenes, pero siguen siendo limitados en cuanto a controlabilidad y precisión de segmentación. Para abordar estos desafíos, proponemos dos módulos clave: LayerDecompose-DiT (LD-DiT), que desacopla los elementos de la imagen en capas distintas y permite un control de grano fino; y el Adaptador Condicional Multicapa (MLCA), que inyecta información de la imagen objetivo en tokens multicapa para lograr una generación condicional precisa. Para permitir una evaluación integral, construimos un nuevo benchmark e introducimos métricas de evaluación específicas. Los resultados experimentales muestran que CLD supera consistentemente a los métodos existentes tanto en calidad de descomposición como en controlabilidad. Además, las capas separadas producidas por CLD pueden manipularse directamente en herramientas de diseño de uso común, como PowerPoint, lo que subraya su valor práctico y aplicabilidad en flujos de trabajo creativos del mundo real.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.
PDF92February 7, 2026