ChatPaper.aiChatPaper

OmniPSD: Многоуровневая генерация PSD с помощью диффузионного трансформера

OmniPSD: Layered PSD Generation with Diffusion Transformer

December 10, 2025
Авторы: Cheng Liu, Yiren Song, Haofan Wang, Mike Zheng Shou
cs.AI

Аннотация

Последние достижения в области диффузионных моделей значительно улучшили генерацию и редактирование изображений, однако создание или реконструкция многослойных PSD-файлов с прозрачными альфа-каналами остаются чрезвычайно сложными задачами. Мы предлагаем OmniPSD — унифицированную диффузионную архитектуру, построенную на экосистеме Flux, которая позволяет осуществлять как генерацию PSD из текста, так и декомпозицию изображения в PSD посредством контекстного обучения. Для генерации PSD из текста OmniPSD пространственно размещает несколько целевых слоёв на едином холсте и изучает их композиционные взаимосвязи через механизм пространственного внимания, создавая семантически согласованные и иерархически структурированные слои. Для декомпозиции изображения в PSD модель выполняет итеративное контекстное редактирование, постепенно извлекая и удаляя текстовые и переднеплановые компоненты для реконструкции редактируемых PSD-слоёв из единого растрового изображения. RGBA-VAE используется как вспомогательный модуль представления для сохранения прозрачности без влияния на обучение структуры. Многочисленные эксперименты на нашем новом наборе данных с RGBA-слоями демонстрируют, что OmniPSD достигает высокой точности генерации, структурной согласованности и учёта прозрачности, предлагая новую парадигму для генерации и декомпозиции многослойного дизайна с помощью диффузионных трансформеров.
English
Recent advances in diffusion models have greatly improved image generation and editing, yet generating or reconstructing layered PSD files with transparent alpha channels remains highly challenging. We propose OmniPSD, a unified diffusion framework built upon the Flux ecosystem that enables both text-to-PSD generation and image-to-PSD decomposition through in-context learning. For text-to-PSD generation, OmniPSD arranges multiple target layers spatially into a single canvas and learns their compositional relationships through spatial attention, producing semantically coherent and hierarchically structured layers. For image-to-PSD decomposition, it performs iterative in-context editing, progressively extracting and erasing textual and foreground components to reconstruct editable PSD layers from a single flattened image. An RGBA-VAE is employed as an auxiliary representation module to preserve transparency without affecting structure learning. Extensive experiments on our new RGBA-layered dataset demonstrate that OmniPSD achieves high-fidelity generation, structural consistency, and transparency awareness, offering a new paradigm for layered design generation and decomposition with diffusion transformers.
PDF403December 13, 2025