ChatPaper.aiChatPaper

PrismLayers : Données ouvertes pour des modèles génératifs d'images transparentes multicouches de haute qualité

PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

May 28, 2025
Auteurs: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI

Résumé

La génération d'images transparentes multicouches de haute qualité à partir de prompts textuels peut ouvrir un nouveau niveau de contrôle créatif, permettant aux utilisateurs de modifier chaque couche aussi facilement qu'ils éditeraient des sorties textuelles de modèles de langage (LLMs). Cependant, le développement de modèles génératifs multicouches est à la traîne par rapport aux modèles conventionnels de texte-à-image, en raison de l'absence d'un vaste corpus de données transparentes multicouches de haute qualité. Dans cet article, nous relevons ce défi fondamental en : (i) publiant le premier jeu de données ouvert et ultra-haute fidélité PrismLayers (PrismLayersPro) de 200K (20K) images transparentes multicouches avec des mattes alpha précises, (ii) introduisant un pipeline de synthèse sans entraînement qui génère de telles données à la demande en utilisant des modèles de diffusion disponibles sur le marché, et (iii) proposant un modèle génératif multicouche open-source performant, ART+, qui rivalise avec l'esthétique des modèles modernes de génération texte-à-image. Les contributions techniques clés incluent : LayerFLUX, qui excelle dans la génération de couches transparentes uniques de haute qualité avec des mattes alpha précises, et MultiLayerFLUX, qui compose plusieurs sorties de LayerFLUX en images complètes, guidé par une disposition sémantique annotée par des humains. Pour garantir une qualité supérieure, nous appliquons une étape de filtrage rigoureuse pour éliminer les artefacts et les incohérences sémantiques, suivie d'une sélection humaine. Le fine-tuning du modèle ART de pointe sur notre jeu de données synthétique PrismLayersPro donne naissance à ART+, qui surpasse l'ART original dans 60% des comparaisons directes lors d'études utilisateurs et rivalise même avec la qualité visuelle des images générées par le modèle FLUX.1-[dev]. Nous anticipons que notre travail établira une base solide de données pour la tâche de génération d'images transparentes multicouches, permettant des recherches et des applications nécessitant une imagerie multicouche précise, éditable et visuellement captivante.
English
Generating high-quality, multi-layer transparent images from text prompts can unlock a new level of creative control, allowing users to edit each layer as effortlessly as editing text outputs from LLMs. However, the development of multi-layer generative models lags behind that of conventional text-to-image models due to the absence of a large, high-quality corpus of multi-layer transparent data. In this paper, we address this fundamental challenge by: (i) releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro) dataset of 200K (20K) multilayer transparent images with accurate alpha mattes, (ii) introducing a trainingfree synthesis pipeline that generates such data on demand using off-the-shelf diffusion models, and (iii) delivering a strong, open-source multi-layer generation model, ART+, which matches the aesthetics of modern text-to-image generation models. The key technical contributions include: LayerFLUX, which excels at generating high-quality single transparent layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple LayerFLUX outputs into complete images, guided by human-annotated semantic layout. To ensure higher quality, we apply a rigorous filtering stage to remove artifacts and semantic mismatches, followed by human selection. Fine-tuning the state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which outperforms the original ART in 60% of head-to-head user study comparisons and even matches the visual quality of images generated by the FLUX.1-[dev] model. We anticipate that our work will establish a solid dataset foundation for the multi-layer transparent image generation task, enabling research and applications that require precise, editable, and visually compelling layered imagery.

Summary

AI-Generated Summary

PDF62May 29, 2025