ChatPaper.aiChatPaper

制御可能な画像生成のための条件認識ニューラルネットワーク

Condition-Aware Neural Network for Controlled Image Generation

April 1, 2024
著者: Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han
cs.AI

要旨

本論文では、画像生成モデルに制御を加える新しい手法であるCondition-Aware Neural Network(CAN)を提案する。従来の条件付き制御手法と並行して、CANはニューラルネットワークの重みを動的に操作することで画像生成プロセスを制御する。これは、入力条件に基づいて畳み込み/線形層の条件付き重みを生成する条件認識型重み生成モジュールを導入することで実現される。我々はCANを、ImageNetにおけるクラス条件付き画像生成とCOCOにおけるテキストから画像への生成において検証した。CANは、DiTやUViTを含む拡散トランスフォーマーモデルにおいて、一貫して大幅な改善をもたらす。特に、EfficientViTと組み合わせたCAN(CaT)は、ImageNet 512x512において2.78のFIDを達成し、DiT-XL/2を上回りながら、サンプリングステップあたりのMACsを52倍削減することに成功した。
English
We present Condition-Aware Neural Network (CAN), a new method for adding control to image generative models. In parallel to prior conditional control methods, CAN controls the image generation process by dynamically manipulating the weight of the neural network. This is achieved by introducing a condition-aware weight generation module that generates conditional weight for convolution/linear layers based on the input condition. We test CAN on class-conditional image generation on ImageNet and text-to-image generation on COCO. CAN consistently delivers significant improvements for diffusion transformer models, including DiT and UViT. In particular, CAN combined with EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2 while requiring 52x fewer MACs per sampling step.

Summary

AI-Generated Summary

PDF131November 26, 2024