PrismLayers: Dados Abertos para Modelos Gerativos de Imagens Transparentes Multi-Camadas de Alta Qualidade
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Autores: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Resumo
A geração de imagens transparentes de alta qualidade e múltiplas camadas a partir de prompts de texto pode desbloquear um novo nível de controle criativo, permitindo que os usuários editem cada camada com a mesma facilidade com que editam saídas de texto de LLMs. No entanto, o desenvolvimento de modelos generativos de múltiplas camadas está atrás dos modelos convencionais de texto para imagem devido à ausência de um grande corpus de dados transparentes de múltiplas camadas e de alta qualidade. Neste artigo, abordamos esse desafio fundamental por meio de: (i) o lançamento do primeiro conjunto de dados aberto e de ultra-alta fidelidade, PrismLayers (PrismLayersPro), contendo 200K (20K) imagens transparentes de múltiplas camadas com mattes alfa precisos, (ii) a introdução de um pipeline de síntese sem treinamento que gera tais dados sob demanda usando modelos de difusão prontos para uso, e (iii) a entrega de um modelo forte e de código aberto para geração de múltiplas camadas, ART+, que corresponde à estética dos modelos modernos de geração de texto para imagem. As principais contribuições técnicas incluem: LayerFLUX, que se destaca na geração de camadas transparentes únicas de alta qualidade com mattes alfa precisos, e MultiLayerFLUX, que compõe múltiplas saídas do LayerFLUX em imagens completas, guiadas por um layout semântico anotado por humanos. Para garantir maior qualidade, aplicamos uma etapa rigorosa de filtragem para remover artefatos e incompatibilidades semânticas, seguida de seleção humana. O ajuste fino do modelo ART state-of-the-art em nosso PrismLayersPro sintético resulta no ART+, que supera o ART original em 60% das comparações em estudos de usuário head-to-head e até mesmo iguala a qualidade visual das imagens geradas pelo modelo FLUX.1-[dev]. Antecipamos que nosso trabalho estabelecerá uma base sólida de dados para a tarefa de geração de imagens transparentes de múltiplas camadas, permitindo pesquisas e aplicações que exigem imagens em camadas precisas, editáveis e visualmente atraentes.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.