Réseau de Neurones Sensible aux Conditions pour la Génération Contrôlée d'Images
Condition-Aware Neural Network for Controlled Image Generation
April 1, 2024
Auteurs: Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han
cs.AI
Résumé
Nous présentons le Condition-Aware Neural Network (CAN), une nouvelle méthode pour ajouter un contrôle aux modèles génératifs d'images. Parallèlement aux méthodes de contrôle conditionnel existantes, CAN régule le processus de génération d'images en manipulant dynamiquement les poids du réseau de neurones. Cela est réalisé grâce à l'introduction d'un module de génération de poids conditionnel qui produit des poids adaptés aux couches de convolution/linéaires en fonction de la condition d'entrée. Nous testons CAN sur la génération d'images conditionnées par classe sur ImageNet et sur la génération d'images à partir de texte sur COCO. CAN apporte systématiquement des améliorations significatives pour les modèles de transformateurs de diffusion, notamment DiT et UViT. En particulier, CAN combiné avec EfficientViT (CaT) atteint un FID de 2,78 sur ImageNet 512x512, surpassant DiT-XL/2 tout en nécessitant 52 fois moins d'opérations MAC par étape d'échantillonnage.
English
We present Condition-Aware Neural Network (CAN), a new method for adding
control to image generative models. In parallel to prior conditional control
methods, CAN controls the image generation process by dynamically manipulating
the weight of the neural network. This is achieved by introducing a
condition-aware weight generation module that generates conditional weight for
convolution/linear layers based on the input condition. We test CAN on
class-conditional image generation on ImageNet and text-to-image generation on
COCO. CAN consistently delivers significant improvements for diffusion
transformer models, including DiT and UViT. In particular, CAN combined with
EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2
while requiring 52x fewer MACs per sampling step.Summary
AI-Generated Summary