ChatPaper.aiChatPaper

OmniPSD: Geração de PSD em Camadas com Transformador de Difusão

OmniPSD: Layered PSD Generation with Diffusion Transformer

December 10, 2025
Autores: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI

Resumo

Os recentes avanços nos modelos de difusão melhoraram significativamente a geração e edição de imagens, mas a geração ou reconstrução de arquivos PSD em camadas com canais alfa transparentes permanece um grande desafio. Propomos o OmniPSD, uma estrutura de difusão unificada construída sobre o ecossistema Flux que permite tanto a geração de texto-para-PSD quanto a decomposição de imagem-para-PSD através de aprendizado em contexto. Para a geração texto-para-PSD, o OmniPSD organiza espacialmente várias camadas-alvo em uma única tela e aprende suas relações composicionais por meio de atenção espacial, produzindo camadas semanticamente coerentes e hierarquicamente estruturadas. Para a decomposição imagem-para-PSD, ele realiza uma edição iterativa em contexto, extraindo e apagando progressivamente componentes textuais e em primeiro plano para reconstruir camadas PSD editáveis a partir de uma única imagem achatada. Um RGBA-VAE é empregado como módulo de representação auxiliar para preservar a transparência sem afetar o aprendizado estrutural. Experimentos extensivos em nosso novo conjunto de dados em camadas RGBA demonstram que o OmniPSD alcança geração de alta fidelidade, consistência estrutural e consciência de transparência, oferecendo um novo paradigma para geração e decomposição de design em camadas com transformadores de difusão.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.
PDF493March 20, 2026