PrismLayers: Открытые данные для высококачественных генеративных моделей многослойных прозрачных изображений
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
Авторы: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
Аннотация
Создание высококачественных многослойных прозрачных изображений на основе текстовых запросов может открыть новый уровень творческого контроля, позволяя пользователям редактировать каждый слой так же легко, как текстовые выходы языковых моделей (LLM). Однако разработка многослойных генеративных моделей отстает от традиционных моделей "текст-в-изображение" из-за отсутствия крупного, высококачественного корпуса данных с многослойной прозрачностью. В данной работе мы решаем эту фундаментальную задачу, предлагая: (i) первый открытый набор данных PrismLayers (PrismLayersPro) с ультравысокой точностью, содержащий 200K (20K) многослойных прозрачных изображений с точными альфа-масками, (ii) метод синтеза данных на лету с использованием готовых диффузионных моделей, не требующий обучения, и (iii) мощную открытую модель многослойной генерации ART+, которая соответствует эстетике современных моделей "текст-в-изображение". Ключевые технические достижения включают: LayerFLUX, который эффективно генерирует высококачественные отдельные прозрачные слои с точными альфа-масками, и MultiLayerFLUX, который объединяет выходы LayerFLUX в цельные изображения, руководствуясь семантической разметкой, созданной человеком. Для обеспечения высочайшего качества мы применяем строгую фильтрацию для удаления артефактов и семантических несоответствий, за которой следует ручной отбор. Тонкая настройка передовой модели ART на нашем синтетическом наборе PrismLayersPro приводит к созданию ART+, которая превосходит оригинальную ART в 60% сравнений в пользовательских исследованиях и даже соответствует визуальному качеству изображений, генерируемых моделью FLUX.1-[dev]. Мы ожидаем, что наша работа заложит прочную основу для задач генерации многослойных прозрачных изображений, способствуя исследованиям и приложениям, требующим точных, редактируемых и визуально привлекательных слоистых изображений.
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.Summary
AI-Generated Summary