OmniPSD: 확산 트랜스포머를 활용한 계층적 PSD 생성
OmniPSD: Layered PSD Generation with Diffusion Transformer
December 10, 2025
저자: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI
초록
디퓨전 모델의 최근 발전으로 이미지 생성 및 편집 기술이 크게 향상되었으나, 투명 알파 채널을 포함한 계층적 PSD 파일의 생성 또는 재구성은 여전히 매우 어려운 과제로 남아 있습니다. 본 연구에서는 Flux 생태계 기반의 통합 디퓨전 프레임워크인 OmniPSD를 제안합니다. 이 프레임워크는 인-컨텍스트 학습을 통해 텍스트-to-PSD 생성과 이미지-to-PSD 분해를 모두 가능하게 합니다. 텍스트-to-PSD 생성의 경우 OmniPSD는 여러 대상 레이어를 공간적으로 단일 캔버스에 배열하고 공간 어텐션을 통해 이들의 구성 관계를 학습함으로써 의미적으로 일관되고 계층 구조를 가진 레이어를 생성합니다. 이미지-to-PSD 분해의 경우, 단일 평면화된 이미지에서 편집 가능한 PSD 레이어를 재구성하기 위해 반복적인 인-컨텍스트 편집을 수행하여 텍스트 및 전경 요소를 점진적으로 추출하고 제거합니다. 구조 학습에 영향을 주지 않으면서 투명도를 보존하기 위해 RGBA-VAE를 보조 표현 모듈로 활용합니다. 새로 구축한 RGBA 계층 데이터셋을 이용한 폭넓은 실험을 통해 OmniPSD가 높은 정확도의 생성, 구조적 일관성, 투명도 인식을 달성함을 입증하며, 디퓨전 트랜스포머를 이용한 계층적 디자인 생성 및 분해의 새로운 패러다임을 제시합니다.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.