DiffDecompose: Descomposición Capa por Capa de Imágenes Alfa-Compositadas mediante Transformadores de Difusión
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
May 24, 2025
Autores: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
cs.AI
Resumen
Los modelos de difusión han motivado recientemente un gran éxito en muchas tareas de generación, como la eliminación de objetos. Sin embargo, los métodos existentes de descomposición de imágenes luchan por separar oclusiones de capas semitransparentes o transparentes debido a dependencias de máscaras previas, suposiciones estáticas sobre los objetos y la falta de conjuntos de datos. En este artículo, profundizamos en una nueva tarea: la Descomposición por Capas de Imágenes Compuestas con Alfa, cuyo objetivo es recuperar las capas constituyentes a partir de imágenes superpuestas únicas bajo la condición de oclusión no lineal de capas alfa semitransparentes/transparentes. Para abordar los desafíos de ambigüedad en las capas, generalización y escasez de datos, primero presentamos AlphaBlend, el primer conjunto de datos a gran escala y de alta calidad para la descomposición de capas transparentes y semitransparentes, que respalda seis subtareas del mundo real (por ejemplo, eliminación de destellos translúcidos, descomposición de células semitransparentes, descomposición de cristalería). Basándonos en este conjunto de datos, presentamos DiffDecompose, un marco basado en Transformers de difusión que aprende la distribución posterior sobre posibles descomposiciones de capas condicionadas por la imagen de entrada, indicaciones semánticas y el tipo de mezcla. En lugar de regresar directamente las máscaras alfa, DiffDecompose realiza una Descomposición en Contexto, permitiendo que el modelo prediga una o múltiples capas sin supervisión por capa, e introduce la Clonación de Codificación de Posición de Capas para mantener la correspondencia a nivel de píxel entre las capas. Experimentos exhaustivos en el conjunto de datos AlphaBlend propuesto y en el conjunto de datos público LOGO verifican la efectividad de DiffDecompose. El código y el conjunto de datos estarán disponibles tras la aceptación del artículo. Nuestro código estará disponible en: https://github.com/Wangzt1121/DiffDecompose.
English
Diffusion models have recently motivated great success in many generation
tasks like object removal. Nevertheless, existing image decomposition methods
struggle to disentangle semi-transparent or transparent layer occlusions due to
mask prior dependencies, static object assumptions, and the lack of datasets.
In this paper, we delve into a novel task: Layer-Wise Decomposition of
Alpha-Composited Images, aiming to recover constituent layers from single
overlapped images under the condition of semi-transparent/transparent alpha
layer non-linear occlusion. To address challenges in layer ambiguity,
generalization, and data scarcity, we first introduce AlphaBlend, the first
large-scale and high-quality dataset for transparent and semi-transparent layer
decomposition, supporting six real-world subtasks (e.g., translucent flare
removal, semi-transparent cell decomposition, glassware decomposition).
Building on this dataset, we present DiffDecompose, a diffusion
Transformer-based framework that learns the posterior over possible layer
decompositions conditioned on the input image, semantic prompts, and blending
type. Rather than regressing alpha mattes directly, DiffDecompose performs
In-Context Decomposition, enabling the model to predict one or multiple layers
without per-layer supervision, and introduces Layer Position Encoding Cloning
to maintain pixel-level correspondence across layers. Extensive experiments on
the proposed AlphaBlend dataset and public LOGO dataset verify the
effectiveness of DiffDecompose. The code and dataset will be available upon
paper acceptance. Our code will be available at:
https://github.com/Wangzt1121/DiffDecompose.