PrismLayers: 高品質な多層透明画像生成モデルのためのオープンデータ
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
May 28, 2025
著者: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan
cs.AI
要旨
テキストプロンプトから高品質な多層透明画像を生成することは、新たなレベルのクリエイティブコントロールを可能にし、ユーザーがLLMからのテキスト出力を編集するのと同じくらい簡単に各レイヤーを編集できるようにします。しかし、多層生成モデルの開発は、大規模で高品質な多層透明データのコーパスが存在しないため、従来のテキストから画像へのモデルに遅れを取っています。本論文では、この根本的な課題に対処するために、(i)正確なアルファマットを備えた200K(20K)の多層透明画像からなる初のオープンな超高精細PrismLayers(PrismLayersPro)データセットを公開し、(ii)既存の拡散モデルを使用してオンデマンドでそのようなデータを生成するトレーニング不要の合成パイプラインを導入し、(iii)現代のテキストから画像生成モデルの美学に匹敵する強力なオープンソースの多層生成モデルART+を提供します。主な技術的貢献としては、正確なアルファマットを備えた高品質な単一透明レイヤーを生成するLayerFLUXと、人間が注釈を付けたセマンティックレイアウトに基づいて複数のLayerFLUX出力を完全な画像に構成するMultiLayerFLUXが含まれます。より高い品質を確保するために、アーティファクトやセマンティックミスマッチを除去する厳格なフィルタリングステージを適用し、その後人間による選択を行います。最先端のARTモデルを私たちの合成PrismLayersProでファインチューニングすることで得られたART+は、オリジナルのARTを60%のヘッドツーヘッドユーザー調査比較で上回り、FLUX.1-[dev]モデルによって生成された画像の視覚的品質にも匹敵します。私たちの研究が、多層透明画像生成タスクのための堅固なデータセット基盤を確立し、正確で編集可能で視覚的に魅力的なレイヤー画像を必要とする研究やアプリケーションを可能にすることを期待しています。
English
Generating high-quality, multi-layer transparent images from text prompts can
unlock a new level of creative control, allowing users to edit each layer as
effortlessly as editing text outputs from LLMs. However, the development of
multi-layer generative models lags behind that of conventional text-to-image
models due to the absence of a large, high-quality corpus of multi-layer
transparent data. In this paper, we address this fundamental challenge by: (i)
releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro)
dataset of 200K (20K) multilayer transparent images with accurate alpha mattes,
(ii) introducing a trainingfree synthesis pipeline that generates such data on
demand using off-the-shelf diffusion models, and (iii) delivering a strong,
open-source multi-layer generation model, ART+, which matches the aesthetics of
modern text-to-image generation models. The key technical contributions
include: LayerFLUX, which excels at generating high-quality single transparent
layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple
LayerFLUX outputs into complete images, guided by human-annotated semantic
layout. To ensure higher quality, we apply a rigorous filtering stage to remove
artifacts and semantic mismatches, followed by human selection. Fine-tuning the
state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which
outperforms the original ART in 60% of head-to-head user study comparisons and
even matches the visual quality of images generated by the FLUX.1-[dev] model.
We anticipate that our work will establish a solid dataset foundation for the
multi-layer transparent image generation task, enabling research and
applications that require precise, editable, and visually compelling layered
imagery.Summary
AI-Generated Summary