OmniPSD : Génération de PSD en couches avec un Transformer de Diffusion
OmniPSD: Layered PSD Generation with Diffusion Transformer
December 10, 2025
papers.authors: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI
papers.abstract
Les récents progrès des modèles de diffusion ont considérablement amélioré la génération et l'édition d'images, mais la génération ou la reconstruction de fichiers PSD stratifiés avec des canaux alpha transparents reste très difficile. Nous proposons OmniPSD, un framework de diffusion unifié construit sur l'écosystème Flux qui permet à la fois la génération texte-vers-PSD et la décomposition image-vers-PSD via l'apprentissage en contexte. Pour la génération texte-vers-PSD, OmniPSD arrange spatialement plusieurs calques cibles sur une seule toile et apprend leurs relations compositionnelles par attention spatiale, produisant des calques sémantiquement cohérents et structurellement hiérarchisés. Pour la décomposition image-vers-PSD, il effectue une édition itérative en contexte, extrayant et effaçant progressivement les composants textuels et de premier plan pour reconstruire des calques PSD modifiables à partir d'une seule image aplatie. Un RGBA-VAE est employé comme module de représentation auxiliaire pour préserver la transparence sans affecter l'apprentissage structurel. Des expériences approfondies sur notre nouveau jeu de données stratifié RGBA démontrent qu'OmniPSD atteint une génération haute fidélité, une cohérence structurelle et une conscience de la transparence, offrant un nouveau paradigme pour la génération et la décomposition de designs stratifiés avec des transformeurs de diffusion.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.