DiP: Domando Modelos de Difusão no Espaço de Pixels

Resumo

Os modelos de difusão enfrentam um compromisso fundamental entre a qualidade da geração e a eficiência computacional. Os Modelos de Difusão Latente (LDMs) oferecem uma solução eficiente, mas sofrem com possíveis perdas de informação e treinamento não end-to-end. Em contraste, os modelos existentes no espaço de pixels dispensam os VAEs, mas são computacionalmente proibitivos para síntese de alta resolução. Para resolver este dilema, propomos o DiP, uma estrutura de difusão eficiente no espaço de pixels. O DiP desacopla a geração em uma etapa global e uma local: uma espinha dorsal de Transformer de Difusão (DiT) opera em *patches* grandes para uma construção eficiente da estrutura global, enquanto uma Cabeça Detalhadora de *Patches* leve e co-treinada aproveita as características contextuais para restaurar detalhes locais de alta granularidade. Este design sinérgico alcança eficiência computacional comparável aos LDMs sem depender de um VAE. O DiP é realizado com velocidades de inferência até 10 vezes mais rápidas do que o método anterior, enquanto aumenta o número total de parâmetros em apenas 0,3%, e alcança um score FID de 1,79 no ImageNet 256x256.

English

Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.

DiP: Domando Modelos de Difusão no Espaço de Pixels

DiP: Taming Diffusion Models in Pixel Space

Resumo

Support