ChatPaper.aiChatPaper

画像生成における歪みの軽減:マルチレゾリューション拡散モデルによるアプローチ

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

June 13, 2024
著者: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI

要旨

本論文では、新たなマルチ解像度ネットワークと時間依存型レイヤー正規化を統合することで、拡散モデルに革新的な改良を加えることを提案します。拡散モデルは、高忠実度の画像生成においてその有効性が注目されています。従来のアプローチでは畳み込みU-Netアーキテクチャが用いられてきましたが、最近ではTransformerベースの設計が優れた性能とスケーラビリティを示しています。しかし、Transformerアーキテクチャは入力データをトークン化(「パッチ化」)するため、トークン長に対する自己注意機構の二次的な計算複雑性により、視覚的忠実度と計算効率の間でトレードオフに直面しています。大きなパッチサイズは注意計算の効率化を可能にしますが、細かい視覚的詳細を捉えることが難しく、画像の歪みを引き起こします。この課題に対処するため、我々は拡散モデルにマルチ解像度ネットワーク(DiMR)を組み込むことを提案します。DiMRは、複数の解像度にわたって特徴を洗練し、低解像度から高解像度へと段階的に詳細を向上させるフレームワークです。さらに、時間依存型レイヤー正規化(TD-LN)を導入します。これは、時間情報を注入し優れた性能を達成するために、レイヤー正規化に時間依存のパラメータを組み込むパラメータ効率の良いアプローチです。我々の手法の有効性は、クラス条件付きImageNet生成ベンチマークで実証され、DiMR-XLバリアントは従来の拡散モデルを上回り、ImageNet 256 x 256で1.70、ImageNet 512 x 512で2.89という新たな最先端のFIDスコアを達成しました。プロジェクトページ: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR

Summary

AI-Generated Summary

PDF301December 6, 2024