PrismLayers: Offene Daten für hochwertige generative Modelle mehrschichtiger transparenter Bilder
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Autoren: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Zusammenfassung
Die Erzeugung hochwertiger, mehrschichtiger transparenter Bilder aus Textprompts kann eine neue Ebene der kreativen Kontrolle freisetzen, die es Nutzern ermöglicht, jede Ebene so mühelos zu bearbeiten wie Textausgaben von LLMs. Allerdings hinkt die Entwicklung mehrschichtiger generativer Modelle der konventioneller Text-zu-Bild-Modelle hinterher, da es an einem umfangreichen, hochwertigen Korpus mehrschichtiger transparenter Daten mangelt. In diesem Papier gehen wir diese grundlegende Herausforderung an, indem wir: (i) den ersten offenen, ultrahochauflösenden PrismLayers (PrismLayersPro) Datensatz mit 200K (20K) mehrschichtigen transparenten Bildern mit präzisen Alpha-Matten veröffentlichen, (ii) eine trainingsfreie Synthese-Pipeline vorstellen, die solche Daten bedarfsgerecht mit verfügbaren Diffusionsmodellen erzeugt, und (iii) ein leistungsstarkes, quelloffenes mehrschichtiges Generationsmodell, ART+, liefern, das die Ästhetik moderner Text-zu-Bild-Generationsmodelle erreicht. Die wesentlichen technischen Beiträge umfassen: LayerFLUX, das sich durch die Erzeugung hochwertiger einzelner transparenter Ebenen mit präzisen Alpha-Matten auszeichnet, und MultiLayerFLUX, das mehrere LayerFLUX-Ausgaben zu vollständigen Bildern zusammensetzt, geleitet durch menschlich annotierte semantische Layouts. Um eine höhere Qualität zu gewährleisten, wenden wir eine strenge Filterungsphase an, um Artefakte und semantische Fehlanpassungen zu entfernen, gefolgt von einer menschlichen Auswahl. Das Feinabstimmen des state-of-the-art ART-Modells auf unser synthetisches PrismLayersPro ergibt ART+, das das ursprüngliche ART in 60% der direkten Nutzerstudienvergleiche übertrifft und sogar die visuelle Qualität der von FLUX.1-[dev] erzeugten Bilder erreicht. Wir gehen davon aus, dass unsere Arbeit eine solide Datensatzgrundlage für die Aufgabe der mehrschichtigen transparenten Bildgenerierung schaffen wird, die Forschung und Anwendungen ermöglicht, die präzise, bearbeitbare und visuell ansprechende geschichtete Bildmaterialien erfordern.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.Summary
AI-Generated Summary