ChatPaper.aiChatPaper

Rede Neural Condicionada para Geração Controlada de Imagens

Condition-Aware Neural Network for Controlled Image Generation

April 1, 2024
Autores: Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han
cs.AI

Resumo

Apresentamos a Rede Neural Condicionalmente Consciente (CAN), um novo método para adicionar controle a modelos generativos de imagens. Paralelamente aos métodos de controle condicional anteriores, a CAN controla o processo de geração de imagens manipulando dinamicamente o peso da rede neural. Isso é alcançado pela introdução de um módulo de geração de pesos condicionalmente consciente, que gera pesos condicionais para camadas de convolução/linear com base na condição de entrada. Testamos a CAN na geração de imagens condicionadas por classe no ImageNet e na geração de imagens a partir de texto no COCO. A CAN consistentemente oferece melhorias significativas para modelos de transformadores de difusão, incluindo DiT e UViT. Em particular, a CAN combinada com o EfficientViT (CaT) alcança 2,78 de FID no ImageNet 512x512, superando o DiT-XL/2 enquanto requer 52 vezes menos MACs por etapa de amostragem.
English
We present Condition-Aware Neural Network (CAN), a new method for adding control to image generative models. In parallel to prior conditional control methods, CAN controls the image generation process by dynamically manipulating the weight of the neural network. This is achieved by introducing a condition-aware weight generation module that generates conditional weight for convolution/linear layers based on the input condition. We test CAN on class-conditional image generation on ImageNet and text-to-image generation on COCO. CAN consistently delivers significant improvements for diffusion transformer models, including DiT and UViT. In particular, CAN combined with EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2 while requiring 52x fewer MACs per sampling step.
PDF131February 8, 2026