ChatPaper.aiChatPaper

OmniPSD:拡散Transformerによる階層的PSD生成

OmniPSD: Layered PSD Generation with Diffusion Transformer

December 10, 2025
著者: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI

要旨

拡散モデルの最近の進歩は画像生成と編集を大幅に改善しましたが、透明なアルファチャンネルを持つ階層化PSDファイルの生成や再構築は依然として非常に困難です。本論文ではFluxエコシステム上に構築された統一拡散フレームワーク「OmniPSD」を提案します。このフレームワークは、コンテキスト内学習を通じてテキストからPSDへの生成と画像からPSDへの分解の両方を実現します。テキストからPSDへの生成では、OmniPSDは複数のターゲットレイヤーを空間的に単一キャンバスに配置し、空間的注意機構を通じてそれらの合成的関係を学習し、意味的に一貫性のある階層構造を持つレイヤーを生成します。画像からPSDへの分解では、反復的なコンテキスト内編集を実行し、テキストや前景要素を段階的に抽出・消去することで、単一のフラット化画像から編集可能なPSDレイヤーを再構築します。構造学習に影響を与えずに透明度を保持するため、RGBA-VAEを補助表現モジュールとして採用しています。新たに構築したRGBA階層化データセットを用いた大規模な実験により、OmniPSDが高精度な生成、構造的一貫性、透明度認識を達成し、拡散トランスフォーマーを用いた階層化デザインの生成と分解における新たなパラダイムを提供することを実証しました。
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.
PDF403December 13, 2025