Смягчение искажений при генерации изображений с помощью моделей диффузии многоразрешения
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
June 13, 2024
Авторы: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Аннотация
Данный доклад представляет инновационные улучшения моделей диффузии путем интеграции новой многоуровневой сети и временно-зависимой слойной нормализации. Модели диффузии приобрели популярность благодаря их эффективности в генерации изображений высокой точности. В то время как традиционные подходы опираются на архитектуры сверточных U-Net, недавние конструкции на основе трансформеров продемонстрировали превосходную производительность и масштабируемость. Однако архитектуры трансформеров, токенизирующие входные данные (через "патчификацию"), сталкиваются с компромиссом между визуальной точностью и вычислительной сложностью из-за квадратичной природы операций самовнимания относительно длины токена. Большие размеры патчей обеспечивают эффективность вычисления внимания, но испытывают затруднения в захвате мелких визуальных деталей, что приводит к искажениям изображения. Для решения этой проблемы мы предлагаем дополнить модель диффузии многоуровневой сетью (DiMR), фреймворком, который улучшает признаки на разных разрешениях, постепенно повышая детализацию от низкого к высокому разрешению. Кроме того, мы вводим временно-зависимую слойную нормализацию (TD-LN), параметрически эффективный подход, который интегрирует временно-зависимые параметры в слойную нормализацию для внедрения информации о времени и достижения превосходной производительности. Эффективность нашего метода продемонстрирована на бенчмарке генерации изображений ImageNet с условиями классов, где варианты DiMR-XL превосходят предыдущие модели диффузии, устанавливая новые рекорды FID в 1,70 на ImageNet 256 x 256 и 2,89 на ImageNet 512 x 512. Страница проекта: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by
integrating a novel multi-resolution network and time-dependent layer
normalization. Diffusion models have gained prominence for their effectiveness
in high-fidelity image generation. While conventional approaches rely on
convolutional U-Net architectures, recent Transformer-based designs have
demonstrated superior performance and scalability. However, Transformer
architectures, which tokenize input data (via "patchification"), face a
trade-off between visual fidelity and computational complexity due to the
quadratic nature of self-attention operations concerning token length. While
larger patch sizes enable attention computation efficiency, they struggle to
capture fine-grained visual details, leading to image distortions. To address
this challenge, we propose augmenting the Diffusion model with the
Multi-Resolution network (DiMR), a framework that refines features across
multiple resolutions, progressively enhancing detail from low to high
resolution. Additionally, we introduce Time-Dependent Layer Normalization
(TD-LN), a parameter-efficient approach that incorporates time-dependent
parameters into layer normalization to inject time information and achieve
superior performance. Our method's efficacy is demonstrated on the
class-conditional ImageNet generation benchmark, where DiMR-XL variants
outperform prior diffusion models, setting new state-of-the-art FID scores of
1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page:
https://qihao067.github.io/projects/DiMR