Red Neuronal Sensible a Condiciones para Generación Controlada de Imágenes
Condition-Aware Neural Network for Controlled Image Generation
April 1, 2024
Autores: Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han
cs.AI
Resumen
Presentamos Condition-Aware Neural Network (CAN), un nuevo método para agregar control a los modelos generativos de imágenes. En paralelo a los métodos de control condicional previos, CAN controla el proceso de generación de imágenes mediante la manipulación dinámica de los pesos de la red neuronal. Esto se logra introduciendo un módulo de generación de pesos condicionales que genera pesos condicionales para las capas de convolución/lineales basándose en la condición de entrada. Evaluamos CAN en la generación de imágenes condicionadas por clase en ImageNet y en la generación de texto a imagen en COCO. CAN ofrece consistentemente mejoras significativas para los modelos de transformadores de difusión, incluyendo DiT y UViT. En particular, CAN combinado con EfficientViT (CaT) alcanza un FID de 2.78 en ImageNet 512x512, superando a DiT-XL/2 mientras requiere 52 veces menos MACs por paso de muestreo.
English
We present Condition-Aware Neural Network (CAN), a new method for adding
control to image generative models. In parallel to prior conditional control
methods, CAN controls the image generation process by dynamically manipulating
the weight of the neural network. This is achieved by introducing a
condition-aware weight generation module that generates conditional weight for
convolution/linear layers based on the input condition. We test CAN on
class-conditional image generation on ImageNet and text-to-image generation on
COCO. CAN consistently delivers significant improvements for diffusion
transformer models, including DiT and UViT. In particular, CAN combined with
EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2
while requiring 52x fewer MACs per sampling step.