OmniPSD: Schichtweise PSD-Generierung mit Diffusion Transformer
OmniPSD: Layered PSD Generation with Diffusion Transformer
December 10, 2025
papers.authors: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI
papers.abstract
Jüngste Fortschritte bei Diffusionsmodellen haben die Bildgenerierung und -bearbeitung erheblich verbessert, doch die Generierung oder Rekonstruktion geschichteter PSD-Dateien mit transparenten Alphakanälen bleibt äußerst anspruchsvoll. Wir stellen OmniPSD vor, ein einheitliches Diffusionsframework, das auf dem Flux-Ökosystem aufbaut und durch In-Context-Learning sowohl Text-zu-PSD-Generierung als auch Bild-zu-PSD-Zerlegung ermöglicht. Für die Text-zu-PSD-Generierung ordnet OmniPSD mehrere Zielebenen räumlich auf einer einzigen Leinwand an und erlernt ihre Kompositionsbeziehungen durch räumliche Aufmerksamkeit, wodurch semantisch kohärente und hierarchisch strukturierte Ebenen entstehen. Für die Bild-zu-PSD-Zerlegung führt es iteratives In-Context-Editing durch, extrahiert und löscht schrittweise textliche und Vordergrundkomponenten, um bearbeitbare PSD-Ebenen aus einem einzigen abgeflachten Bild zu rekonstruieren. Ein RGBA-VAE dient als modulares Repräsentationsmodul, um Transparenz ohne Beeinträchtigung des Strukturlernens zu erhalten. Umfangreiche Experimente mit unserem neuen RGBA-geschichteten Datensatz zeigen, dass OmniPSD hochpräzise Generierung, strukturelle Konsistenz und Transparenzbewusstsein erreicht und ein neues Paradigma für geschichtete Designgenerierung und -zerlegung mit Diffusions-Transformatoren bietet.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.