Decomposição Controlável de Camadas para Geração Reversível de Imagens Multi-Camadas

Resumo

Este trabalho apresenta a Decomposição Controlável de Camadas (CLD), um método para alcançar uma separação multicamada de imagens raster com granularidade fina e controlável. Em fluxos de trabalho práticos, os designers geralmente geram e editam cada camada RGBA de forma independente antes de compô-las numa imagem raster final. No entanto, este processo é irreversível: uma vez compostas, a edição a nível de camada já não é possível. Os métodos existentes baseiam-se comummente em *matting* e preenchimento de imagens, mas permanecem limitados em termos de controlabilidade e precisão de segmentação. Para enfrentar estes desafios, propomos dois módulos-chave: o LayerDecompose-DiT (LD-DiT), que desacopla elementos da imagem em camadas distintas e permite um controlo de granularidade fina; e o Adaptador Condicional Multicamada (MLCA), que injeta informação da imagem alvo em *tokens* multicamada para alcançar uma geração condicional precisa. Para permitir uma avaliação abrangente, construímos um novo *benchmark* e introduzimos métricas de avaliação personalizadas. Os resultados experimentais mostram que o CLD supera consistentemente os métodos existentes, tanto na qualidade de decomposição como na controlabilidade. Adicionalmente, as camadas separadas produzidas pelo CLD podem ser manipuladas diretamente em ferramentas de design comumente utilizadas, como o PowerPoint, destacando o seu valor prático e aplicabilidade em fluxos de trabalho criativos do mundo real.

English

This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.