ChatPaper.aiChatPaper

OmniPSD: Generación de PSD en Capas con Transformador de Difusión

OmniPSD: Layered PSD Generation with Diffusion Transformer

December 10, 2025
Autores: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI

Resumen

Los recientes avances en los modelos de difusión han mejorado enormemente la generación y edición de imágenes, pero la generación o reconstrucción de archivos PSD en capas con canales alfa transparentes sigue siendo un gran desafío. Proponemos OmniPSD, un marco de difusión unificado construido sobre el ecosistema Flux que permite tanto la generación de texto a PSD como la descomposición de imagen a PSD mediante el aprendizaje en contexto. Para la generación de texto a PSD, OmniPSD organiza espacialmente múltiples capas objetivo en un solo lienzo y aprende sus relaciones compositivas mediante atención espacial, produciendo capas semánticamente coherentes y jerárquicamente estructuradas. Para la descomposición de imagen a PSD, realiza una edición iterativa en contexto, extrayendo y eliminando progresivamente componentes textuales y en primer plano para reconstruir capas PSD editables a partir de una única imagen aplanada. Se emplea un RGBA-VAE como módulo de representación auxiliar para preservar la transparencia sin afectar el aprendizaje estructural. Experimentos exhaustivos en nuestro nuevo conjunto de datos de capas RGBA demuestran que OmniPSD logra una generación de alta fidelidad, coherencia estructural y conciencia de la transparencia, ofreciendo un nuevo paradigma para la generación y descomposición de diseños en capas con transformadores de difusión.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.
PDF403December 13, 2025