DiffDecompose: Послойная декомпозиция альфа-композитных изображений с использованием трансформеров на основе диффузии
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
May 24, 2025
Авторы: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
cs.AI
Аннотация
Диффузионные модели недавно добились значительных успехов во многих задачах генерации, таких как удаление объектов. Тем не менее, существующие методы декомпозиции изображений сталкиваются с трудностями при разделении полупрозрачных или прозрачных слоев из-за зависимостей от масок, предположений о статичности объектов и отсутствия подходящих наборов данных. В данной статье мы исследуем новую задачу: послойную декомпозицию альфа-композитных изображений, направленную на восстановление составляющих слоев из единого перекрытого изображения в условиях нелинейного перекрытия полупрозрачных/прозрачных альфа-слоев. Для решения проблем неоднозначности слоев, обобщаемости и недостатка данных мы сначала представляем AlphaBlend — первый крупномасштабный и высококачественный набор данных для декомпозиции прозрачных и полупрозрачных слоев, поддерживающий шесть реальных подзадач (например, удаление полупрозрачных бликов, декомпозиция полупрозрачных клеток, декомпозиция стеклянных изделий). На основе этого набора данных мы предлагаем DiffDecompose — фреймворк на основе диффузионных трансформеров, который изучает апостериорное распределение возможных декомпозиций слоев, обусловленных входным изображением, семантическими подсказками и типом смешивания. Вместо прямого регрессирования альфа-масок DiffDecompose выполняет декомпозицию в контексте, позволяя модели предсказывать один или несколько слоев без пошагового контроля, а также вводит клонирование позиционного кодирования слоев для сохранения пиксельной соответственности между слоями. Эксперименты на предложенном наборе данных AlphaBlend и публичном наборе LOGO подтверждают эффективность DiffDecompose. Код и набор данных будут доступны после принятия статьи. Наш код будет доступен по адресу: https://github.com/Wangzt1121/DiffDecompose.
English
Diffusion models have recently motivated great success in many generation
tasks like object removal. Nevertheless, existing image decomposition methods
struggle to disentangle semi-transparent or transparent layer occlusions due to
mask prior dependencies, static object assumptions, and the lack of datasets.
In this paper, we delve into a novel task: Layer-Wise Decomposition of
Alpha-Composited Images, aiming to recover constituent layers from single
overlapped images under the condition of semi-transparent/transparent alpha
layer non-linear occlusion. To address challenges in layer ambiguity,
generalization, and data scarcity, we first introduce AlphaBlend, the first
large-scale and high-quality dataset for transparent and semi-transparent layer
decomposition, supporting six real-world subtasks (e.g., translucent flare
removal, semi-transparent cell decomposition, glassware decomposition).
Building on this dataset, we present DiffDecompose, a diffusion
Transformer-based framework that learns the posterior over possible layer
decompositions conditioned on the input image, semantic prompts, and blending
type. Rather than regressing alpha mattes directly, DiffDecompose performs
In-Context Decomposition, enabling the model to predict one or multiple layers
without per-layer supervision, and introduces Layer Position Encoding Cloning
to maintain pixel-level correspondence across layers. Extensive experiments on
the proposed AlphaBlend dataset and public LOGO dataset verify the
effectiveness of DiffDecompose. The code and dataset will be available upon
paper acceptance. Our code will be available at:
https://github.com/Wangzt1121/DiffDecompose.