PrismLayers: Open Data voor Hoogwaardige Multi-Laag Transparante Afbeelding Generatieve Modellen
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Auteurs: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Samenvatting
Het genereren van hoogwaardige, multi-laag transparante afbeeldingen vanuit tekstprompts kan een nieuw niveau van creatieve controle ontsluiten, waardoor gebruikers elke laag net zo moeiteloos kunnen bewerken als tekstoutputs van LLM's. De ontwikkeling van multi-laag generatieve modellen loopt echter achter op die van conventionele tekst-naar-afbeelding modellen vanwege het ontbreken van een grote, hoogwaardige corpus van multi-laag transparante data. In dit artikel pakken we deze fundamentele uitdaging aan door: (i) het uitbrengen van de eerste open, ultra-hoogfiducité PrismLayers (PrismLayersPro) dataset van 200K (20K) multi-laag transparante afbeeldingen met nauwkeurige alpha mattes, (ii) het introduceren van een trainingsvrije synthesepijplijn die dergelijke data op aanvraag genereert met behulp van kant-en-klare diffusiemodellen, en (iii) het leveren van een krachtig, open-source multi-laag generatiemodel, ART+, dat de esthetiek van moderne tekst-naar-afbeelding generatiemodellen evenaart. De belangrijkste technische bijdragen omvatten: LayerFLUX, dat uitblinkt in het genereren van hoogwaardige enkele transparante lagen met nauwkeurige alpha mattes, en MultiLayerFLUX, dat meerdere LayerFLUX-outputs samenstelt tot complete afbeeldingen, geleid door door mensen geannoteerde semantische lay-out. Om een hogere kwaliteit te waarborgen, passen we een rigoureuze filterfase toe om artefacten en semantische mismatches te verwijderen, gevolgd door menselijke selectie. Het finetunen van het state-of-the-art ART-model op onze synthetische PrismLayersPro resulteert in ART+, dat de originele ART overtreft in 60% van de head-to-head gebruikersstudievergelijkingen en zelfs de visuele kwaliteit van afbeeldingen gegenereerd door het FLUX.1-[dev] model evenaart. We verwachten dat ons werk een solide datasetbasis zal vormen voor de multi-laag transparante afbeeldinggeneratietaak, waardoor onderzoek en toepassingen die precieze, bewerkbare en visueel overtuigende gelaagde beeldvorming vereisen, mogelijk worden gemaakt.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.