PrismLayers : Données ouvertes pour des modèles génératifs d'images transparentes multicouches de haute qualité
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Auteurs: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Résumé
La génération d'images transparentes multicouches de haute qualité à partir de prompts textuels peut ouvrir un nouveau niveau de contrôle créatif, permettant aux utilisateurs de modifier chaque couche aussi facilement qu'ils éditeraient des sorties textuelles de modèles de langage (LLMs). Cependant, le développement de modèles génératifs multicouches est à la traîne par rapport aux modèles conventionnels de texte-à-image, en raison de l'absence d'un vaste corpus de données transparentes multicouches de haute qualité. Dans cet article, nous relevons ce défi fondamental en : (i) publiant le premier jeu de données ouvert et ultra-haute fidélité PrismLayers (PrismLayersPro) de 200K (20K) images transparentes multicouches avec des mattes alpha précises, (ii) introduisant un pipeline de synthèse sans entraînement qui génère de telles données à la demande en utilisant des modèles de diffusion disponibles sur le marché, et (iii) proposant un modèle génératif multicouche open-source performant, ART+, qui rivalise avec l'esthétique des modèles modernes de génération texte-à-image. Les contributions techniques clés incluent : LayerFLUX, qui excelle dans la génération de couches transparentes uniques de haute qualité avec des mattes alpha précises, et MultiLayerFLUX, qui compose plusieurs sorties de LayerFLUX en images complètes, guidé par une disposition sémantique annotée par des humains. Pour garantir une qualité supérieure, nous appliquons une étape de filtrage rigoureuse pour éliminer les artefacts et les incohérences sémantiques, suivie d'une sélection humaine. Le fine-tuning du modèle ART de pointe sur notre jeu de données synthétique PrismLayersPro donne naissance à ART+, qui surpasse l'ART original dans 60% des comparaisons directes lors d'études utilisateurs et rivalise même avec la qualité visuelle des images générées par le modèle FLUX.1-[dev]. Nous anticipons que notre travail établira une base solide de données pour la tâche de génération d'images transparentes multicouches, permettant des recherches et des applications nécessitant une imagerie multicouche précise, éditable et visuellement captivante.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.Summary
AI-Generated Summary