OmniPSD: Gelaagde PSD-generatie met Diffusion Transformer
OmniPSD: Layered PSD Generation with Diffusion Transformer
December 10, 2025
Auteurs: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft beeldgeneratie en -bewerking aanzienlijk verbeterd, maar het genereren of reconstrueren van gelaagde PSD-bestanden met transparante alfakanalen blijft zeer uitdagend. Wij presenteren OmniPSD, een uniform diffusieraamwerk gebouwd op het Flux-ecosysteem, dat zowel tekst-naar-PSD-generatie als beeld-naar-PSD-decompositie mogelijk maakt via in-context leren. Voor tekst-naar-PSD-generatie rangschikt OmniPSD meerdere doellagen ruimtelijk op een enkel canvas en leert hun compositionele relaties via spatiale aandacht, waardoor semantisch samenhangende en hiërarchisch gestructureerde lagen worden geproduceerd. Voor beeld-naar-PSD-decompositie voert het iteratieve in-context-bewerking uit, waarbij tekstuele en voorgrondcomponenten progressief worden geëxtraheerd en verwijderd om bewerkbare PSD-lagen te reconstrueren vanuit een enkele afgeplatte afbeelding. Een RGBA-VAE wordt ingezet als aanvullende representatiemodule om transparantie te behouden zonder de structuuraanleren te beïnvloeden. Uitgebreide experimenten op onze nieuwe RGBA-gelaagde dataset tonen aan dat OmniPSD hoge generatiefideliteit, structurele consistentie en transparantiebewustzijn bereikt, wat een nieuw paradigma biedt voor gelaagde ontwerpgeneratie en -decompositie met diffusietransformers.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.