DiffDecompose: 디퓨전 트랜스포머를 통한 알파 합성 이미지의 계층적 분해
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
May 24, 2025
저자: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
cs.AI
초록
디퓨전 모델은 최근 객체 제거와 같은 다양한 생성 작업에서 큰 성공을 거두었습니다. 그러나 기존의 이미지 분해 방법들은 마스크 사전 의존성, 정적 객체 가정, 그리고 데이터셋 부족으로 인해 반투명 또는 투명 레이어 오클루전을 분리하는 데 어려움을 겪고 있습니다. 본 논문에서는 새로운 과제인 '알파 합성 이미지의 계층별 분해'를 탐구하며, 단일 중첩 이미지에서 반투명/투명 알파 레이어의 비선형 오클루전 조건 하에 구성 레이어를 복원하는 것을 목표로 합니다. 레이어 모호성, 일반화, 데이터 부족과 같은 문제를 해결하기 위해, 우리는 먼저 투명 및 반투명 레이어 분해를 위한 첫 번째 대규모 고품질 데이터셋인 AlphaBlend를 소개합니다. 이 데이터셋은 반사광 제거, 반투명 세포 분해, 유리 제품 분해 등 6가지 실제 작업을 지원합니다. 이 데이터셋을 기반으로, 우리는 디퓨전 트랜스포머 기반 프레임워크인 DiffDecompose를 제안합니다. 이 프레임워크는 입력 이미지, 의미적 프롬프트, 블렌딩 유형에 조건부로 가능한 레이어 분해의 사후 분포를 학습합니다. DiffDecompose는 알파 매트를 직접 회귀하는 대신, 컨텍스트 내 분해를 수행하여 레이어별 감독 없이 하나 이상의 레이어를 예측할 수 있도록 하며, 레이어 간 픽셀 수준의 대응을 유지하기 위해 레이어 위치 인코딩 복제를 도입합니다. 제안된 AlphaBlend 데이터셋과 공개 LOGO 데이터셋에서의 광범위한 실험을 통해 DiffDecompose의 효과를 검증합니다. 코드와 데이터셋은 논문 수락 시 공개될 예정입니다. 우리의 코드는 https://github.com/Wangzt1121/DiffDecompose에서 확인할 수 있습니다.
English
Diffusion models have recently motivated great success in many generation
tasks like object removal. Nevertheless, existing image decomposition methods
struggle to disentangle semi-transparent or transparent layer occlusions due to
mask prior dependencies, static object assumptions, and the lack of datasets.
In this paper, we delve into a novel task: Layer-Wise Decomposition of
Alpha-Composited Images, aiming to recover constituent layers from single
overlapped images under the condition of semi-transparent/transparent alpha
layer non-linear occlusion. To address challenges in layer ambiguity,
generalization, and data scarcity, we first introduce AlphaBlend, the first
large-scale and high-quality dataset for transparent and semi-transparent layer
decomposition, supporting six real-world subtasks (e.g., translucent flare
removal, semi-transparent cell decomposition, glassware decomposition).
Building on this dataset, we present DiffDecompose, a diffusion
Transformer-based framework that learns the posterior over possible layer
decompositions conditioned on the input image, semantic prompts, and blending
type. Rather than regressing alpha mattes directly, DiffDecompose performs
In-Context Decomposition, enabling the model to predict one or multiple layers
without per-layer supervision, and introduces Layer Position Encoding Cloning
to maintain pixel-level correspondence across layers. Extensive experiments on
the proposed AlphaBlend dataset and public LOGO dataset verify the
effectiveness of DiffDecompose. The code and dataset will be available upon
paper acceptance. Our code will be available at:
https://github.com/Wangzt1121/DiffDecompose.