DiffDecompose : Décomposition par couches d'images alpha-composées via des transformateurs de diffusion

papers.abstract

Les modèles de diffusion ont récemment suscité un grand succès dans de nombreuses tâches de génération, telles que la suppression d'objets. Néanmoins, les méthodes existantes de décomposition d'images peinent à démêler les occlusions de couches semi-transparentes ou transparentes en raison de dépendances aux masques préalables, d'hypothèses statiques sur les objets et du manque de jeux de données. Dans cet article, nous explorons une nouvelle tâche : la décomposition couche par couche d'images alpha-composées, visant à récupérer les couches constitutives à partir d'images superposées uniques dans des conditions d'occlusion non linéaire de couches alpha semi-transparentes/transparentes. Pour relever les défis liés à l'ambiguïté des couches, à la généralisation et à la pénurie de données, nous introduisons d'abord AlphaBlend, le premier jeu de données à grande échelle et de haute qualité pour la décomposition de couches transparentes et semi-transparentes, prenant en charge six sous-tâches du monde réel (par exemple, la suppression de reflets translucides, la décomposition de cellules semi-transparentes, la décomposition de verrerie). Sur la base de ce jeu de données, nous présentons DiffDecompose, un framework basé sur un Transformer de diffusion qui apprend la distribution a posteriori sur les décompositions possibles de couches conditionnées par l'image d'entrée, les invites sémantiques et le type de fusion. Plutôt que de régresser directement les mattes alpha, DiffDecompose effectue une décomposition en contexte, permettant au modèle de prédire une ou plusieurs couches sans supervision par couche, et introduit le clonage de l'encodage de position des couches pour maintenir une correspondance au niveau des pixels entre les couches. Des expériences approfondies sur le jeu de données AlphaBlend proposé et sur le jeu de données public LOGO vérifient l'efficacité de DiffDecompose. Le code et le jeu de données seront disponibles après l'acceptation de l'article. Notre code sera disponible à l'adresse suivante : https://github.com/Wangzt1121/DiffDecompose.

English

Diffusion models have recently motivated great success in many generation tasks like object removal. Nevertheless, existing image decomposition methods struggle to disentangle semi-transparent or transparent layer occlusions due to mask prior dependencies, static object assumptions, and the lack of datasets. In this paper, we delve into a novel task: Layer-Wise Decomposition of Alpha-Composited Images, aiming to recover constituent layers from single overlapped images under the condition of semi-transparent/transparent alpha layer non-linear occlusion. To address challenges in layer ambiguity, generalization, and data scarcity, we first introduce AlphaBlend, the first large-scale and high-quality dataset for transparent and semi-transparent layer decomposition, supporting six real-world subtasks (e.g., translucent flare removal, semi-transparent cell decomposition, glassware decomposition). Building on this dataset, we present DiffDecompose, a diffusion Transformer-based framework that learns the posterior over possible layer decompositions conditioned on the input image, semantic prompts, and blending type. Rather than regressing alpha mattes directly, DiffDecompose performs In-Context Decomposition, enabling the model to predict one or multiple layers without per-layer supervision, and introduces Layer Position Encoding Cloning to maintain pixel-level correspondence across layers. Extensive experiments on the proposed AlphaBlend dataset and public LOGO dataset verify the effectiveness of DiffDecompose. The code and dataset will be available upon paper acceptance. Our code will be available at: https://github.com/Wangzt1121/DiffDecompose.

DiffDecompose : Décomposition par couches d'images alpha-composées via des transformateurs de diffusion

DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

papers.abstract

Support