DiffDecompose : Décomposition par couches d'images alpha-composées via des transformateurs de diffusion
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
May 24, 2025
papers.authors: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
cs.AI
papers.abstract
Les modèles de diffusion ont récemment suscité un grand succès dans de nombreuses tâches de génération, telles que la suppression d'objets. Néanmoins, les méthodes existantes de décomposition d'images peinent à démêler les occlusions de couches semi-transparentes ou transparentes en raison de dépendances aux masques préalables, d'hypothèses statiques sur les objets et du manque de jeux de données. Dans cet article, nous explorons une nouvelle tâche : la décomposition couche par couche d'images alpha-composées, visant à récupérer les couches constitutives à partir d'images superposées uniques dans des conditions d'occlusion non linéaire de couches alpha semi-transparentes/transparentes. Pour relever les défis liés à l'ambiguïté des couches, à la généralisation et à la pénurie de données, nous introduisons d'abord AlphaBlend, le premier jeu de données à grande échelle et de haute qualité pour la décomposition de couches transparentes et semi-transparentes, prenant en charge six sous-tâches du monde réel (par exemple, la suppression de reflets translucides, la décomposition de cellules semi-transparentes, la décomposition de verrerie). Sur la base de ce jeu de données, nous présentons DiffDecompose, un framework basé sur un Transformer de diffusion qui apprend la distribution a posteriori sur les décompositions possibles de couches conditionnées par l'image d'entrée, les invites sémantiques et le type de fusion. Plutôt que de régresser directement les mattes alpha, DiffDecompose effectue une décomposition en contexte, permettant au modèle de prédire une ou plusieurs couches sans supervision par couche, et introduit le clonage de l'encodage de position des couches pour maintenir une correspondance au niveau des pixels entre les couches. Des expériences approfondies sur le jeu de données AlphaBlend proposé et sur le jeu de données public LOGO vérifient l'efficacité de DiffDecompose. Le code et le jeu de données seront disponibles après l'acceptation de l'article. Notre code sera disponible à l'adresse suivante : https://github.com/Wangzt1121/DiffDecompose.
English
Diffusion models have recently motivated great success in many generation
tasks like object removal. Nevertheless, existing image decomposition methods
struggle to disentangle semi-transparent or transparent layer occlusions due to
mask prior dependencies, static object assumptions, and the lack of datasets.
In this paper, we delve into a novel task: Layer-Wise Decomposition of
Alpha-Composited Images, aiming to recover constituent layers from single
overlapped images under the condition of semi-transparent/transparent alpha
layer non-linear occlusion. To address challenges in layer ambiguity,
generalization, and data scarcity, we first introduce AlphaBlend, the first
large-scale and high-quality dataset for transparent and semi-transparent layer
decomposition, supporting six real-world subtasks (e.g., translucent flare
removal, semi-transparent cell decomposition, glassware decomposition).
Building on this dataset, we present DiffDecompose, a diffusion
Transformer-based framework that learns the posterior over possible layer
decompositions conditioned on the input image, semantic prompts, and blending
type. Rather than regressing alpha mattes directly, DiffDecompose performs
In-Context Decomposition, enabling the model to predict one or multiple layers
without per-layer supervision, and introduces Layer Position Encoding Cloning
to maintain pixel-level correspondence across layers. Extensive experiments on
the proposed AlphaBlend dataset and public LOGO dataset verify the
effectiveness of DiffDecompose. The code and dataset will be available upon
paper acceptance. Our code will be available at:
https://github.com/Wangzt1121/DiffDecompose.