ChatPaper.aiChatPaper

OmniPSD: Generazione Stratificata di PSD con Diffusion Transformer

OmniPSD: Layered PSD Generation with Diffusion Transformer

December 10, 2025
Autori: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI

Abstract

I recenti progressi nei modelli di diffusione hanno notevolmente migliorato la generazione e la modifica delle immagini, ma la generazione o la ricostruzione di file PSD stratificati con canali alfa trasparenti rimane estremamente impegnativa. Proponiamo OmniPSD, un framework di diffusione unificato basato sull'ecosistema Flux che consente sia la generazione da testo a PSD che la scomposizione da immagine a PSD attraverso l'apprendimento contestuale. Per la generazione da testo a PSD, OmniPSD dispone spazialmente più livelli target su una singola tela e apprende le loro relazioni compositive attraverso l'attenzione spaziale, producendo livelli semanticamente coerenti e strutturati gerarchicamente. Per la scomposizione da immagine a PSD, esegue una modifica contestuale iterativa, estraendo e cancellando progressivamente i componenti testuali e in primo piano per ricostruire livelli PSD modificabili da una singola immagine appiattita. Viene impiegato un RGBA-VAE come modulo di rappresentazione ausiliario per preservare la trasparenza senza influenzare l'apprendimento strutturale. Esperimenti estesi sul nostro nuovo dataset RGBA stratificato dimostrano che OmniPSD raggiunge una generazione ad alta fedeltà, coerenza strutturale e consapevolezza della trasparenza, offrendo un nuovo paradigma per la generazione e la scomposizione del design stratificato con transformer di diffusione.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.
PDF403December 13, 2025