PrismLayers: Dati Aperti per Modelli Generativi di Immagini Trasparenti Multistrato di Alta Qualità
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Autori: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Abstract
La generazione di immagini trasparenti multistrato di alta qualità a partire da prompt testuali può sbloccare un nuovo livello di controllo creativo, consentendo agli utenti di modificare ogni strato con la stessa facilità con cui si modificano gli output testuali dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, lo sviluppo di modelli generativi multistrato è in ritardo rispetto ai modelli convenzionali di testo-immagine, a causa della mancanza di un ampio corpus di dati trasparenti multistrato di alta qualità. In questo articolo, affrontiamo questa sfida fondamentale: (i) rilasciando il primo dataset aperto e ad altissima fedeltà PrismLayers (PrismLayersPro) composto da 200K (20K) immagini trasparenti multistrato con alpha matte accurati, (ii) introducendo una pipeline di sintesi senza addestramento che genera tali dati su richiesta utilizzando modelli di diffusione disponibili sul mercato, e (iii) fornendo un modello generativo multistrato open-source robusto, ART+, che eguaglia l'estetica dei moderni modelli di generazione testo-immagine. I contributi tecnici chiave includono: LayerFLUX, che eccelle nella generazione di singoli strati trasparenti di alta qualità con alpha matte accurati, e MultiLayerFLUX, che compone più output di LayerFLUX in immagini complete, guidato da un layout semantico annotato manualmente. Per garantire una qualità superiore, applichiamo una fase di filtraggio rigorosa per rimuovere artefatti e incongruenze semantiche, seguita da una selezione manuale. Il fine-tuning del modello ART all'avanguardia sul nostro dataset sintetico PrismLayersPro produce ART+, che supera l'originale ART nel 60% dei confronti in uno studio utente diretto e addirittura eguaglia la qualità visiva delle immagini generate dal modello FLUX.1-[dev]. Prevediamo che il nostro lavoro stabilirà una solida base di dati per il compito di generazione di immagini trasparenti multistrato, abilitando ricerche e applicazioni che richiedono immagini stratificate precise, modificabili e visivamente accattivanti.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.