ChatPaper.aiChatPaper

Управляемое послойное разложение для обратимой генерации многослойных изображений

Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

November 20, 2025
Авторы: Zihao Liu, Zunnan Xu, Shi Shu, Jun Zhou, Ruicheng Zhang, Zhenchao Tang, Xiu Li
cs.AI

Аннотация

В данной работе представлен метод управляемого разложения на слои (Controllable Layer Decomposition, CLD), предназначенный для получения детального и контролируемого многослойного разделения растровых изображений. В практических рабочих процессах дизайнеры обычно создают и редактируют каждый RGBA-слой независимо перед их объединением в итоговое растровое изображение. Однако этот процесс необратим: после композиции редактирование на уровне слоев становится невозможным. Существующие методы обычно опираются на матирование и дорисовку изображений, но остаются ограниченными в плане управляемости и точности сегментации. Для решения этих задач мы предлагаем два ключевых модуля: LayerDecompose-DiT (LD-DiT), который разделяет элементы изображения на отдельные слои и обеспечивает детальный контроль; и Многослойный Условный Адаптер (Multi-Layer Conditional Adapter, MLCA), который внедряет информацию целевого изображения в токены нескольких слоев для достижения точного условного генерирования. Для проведения всесторонней оценки мы создали новый бенчмарк и ввели специализированные метрики оценки. Результаты экспериментов показывают, что CLD стабильно превосходит существующие методы как по качеству декомпозиции, так и по управляемости. Более того, разделенные слои, полученные с помощью CLD, можно напрямую редактировать в распространенных инструментах дизайна, таких как PowerPoint, что подчеркивает его практическую ценность и применимость в реальных творческих рабочих процессах.
English
This work presents Controllable Layer Decomposition (CLD), a method for achieving fine-grained and controllable multi-layer separation of raster images. In practical workflows, designers typically generate and edit each RGBA layer independently before compositing them into a final raster image. However, this process is irreversible: once composited, layer-level editing is no longer possible. Existing methods commonly rely on image matting and inpainting, but remain limited in controllability and segmentation precision. To address these challenges, we propose two key modules: LayerDecompose-DiT (LD-DiT), which decouples image elements into distinct layers and enables fine-grained control; and Multi-Layer Conditional Adapter (MLCA), which injects target image information into multi-layer tokens to achieve precise conditional generation. To enable a comprehensive evaluation, we build a new benchmark and introduce tailored evaluation metrics. Experimental results show that CLD consistently outperforms existing methods in both decomposition quality and controllability. Furthermore, the separated layers produced by CLD can be directly manipulated in commonly used design tools such as PowerPoint, highlighting its practical value and applicability in real-world creative workflows.
PDF92February 7, 2026