ChatPaper.aiChatPaper

PrismLayers: Datos Abiertos para Modelos Generativos de Imágenes Transparentes Multicapa de Alta Calidad

PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

May 28, 2025
Autores: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI

Resumen

La generación de imágenes transparentes multicapa de alta calidad a partir de indicaciones de texto puede desbloquear un nuevo nivel de control creativo, permitiendo a los usuarios editar cada capa con la misma facilidad con la que se editan las salidas de texto de los LLM. Sin embargo, el desarrollo de modelos generativos multicapa se encuentra rezagado en comparación con los modelos convencionales de texto a imagen, debido a la ausencia de un corpus grande y de alta calidad de datos transparentes multicapa. En este artículo, abordamos este desafío fundamental mediante: (i) la publicación del primer conjunto de datos abierto y de ultra alta fidelidad, PrismLayers (PrismLayersPro), que contiene 200K (20K) imágenes transparentes multicapa con máscaras alfa precisas, (ii) la introducción de una canalización de síntesis sin entrenamiento que genera dichos datos bajo demanda utilizando modelos de difusión disponibles comercialmente, y (iii) la entrega de un modelo generativo multicapa robusto y de código abierto, ART+, que iguala la estética de los modelos modernos de generación de texto a imagen. Las contribuciones técnicas clave incluyen: LayerFLUX, que destaca en la generación de capas transparentes individuales de alta calidad con máscaras alfa precisas, y MultiLayerFLUX, que compone múltiples salidas de LayerFLUX en imágenes completas, guiado por un diseño semántico anotado por humanos. Para garantizar una mayor calidad, aplicamos una etapa rigurosa de filtrado para eliminar artefactos y desajustes semánticos, seguida de una selección humana. El ajuste fino del modelo ART, el más avanzado, en nuestro conjunto de datos sintético PrismLayersPro produce ART+, que supera al ART original en el 60% de las comparaciones en estudios de usuarios y, además, iguala la calidad visual de las imágenes generadas por el modelo FLUX.1-[dev]. Anticipamos que nuestro trabajo establecerá una base sólida de datos para la tarea de generación de imágenes transparentes multicapa, permitiendo investigaciones y aplicaciones que requieran imágenes en capas precisas, editables y visualmente atractivas.
English
Generating high-quality, multi-layer transparent images from text prompts can unlock a new level of creative control, allowing users to edit each layer as effortlessly as editing text outputs from LLMs. However, the development of multi-layer generative models lags behind that of conventional text-to-image models due to the absence of a large, high-quality corpus of multi-layer transparent data. In this paper, we address this fundamental challenge by: (i) releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro) dataset of 200K (20K) multilayer transparent images with accurate alpha mattes, (ii) introducing a trainingfree synthesis pipeline that generates such data on demand using off-the-shelf diffusion models, and (iii) delivering a strong, open-source multi-layer generation model, ART+, which matches the aesthetics of modern text-to-image generation models. The key technical contributions include: LayerFLUX, which excels at generating high-quality single transparent layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple LayerFLUX outputs into complete images, guided by human-annotated semantic layout. To ensure higher quality, we apply a rigorous filtering stage to remove artifacts and semantic mismatches, followed by human selection. Fine-tuning the state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which outperforms the original ART in 60% of head-to-head user study comparisons and even matches the visual quality of images generated by the FLUX.1-[dev] model. We anticipate that our work will establish a solid dataset foundation for the multi-layer transparent image generation task, enabling research and applications that require precise, editable, and visually compelling layered imagery.

Summary

AI-Generated Summary

PDF62May 29, 2025