Treinamento Eficiente com Pesos Neurais Desnecessados

Resumo

Uma boa inicialização de pesos serve como uma medida eficaz para reduzir o custo de treinamento de um modelo de rede neural profunda (DNN). A escolha de como inicializar os parâmetros é desafiadora e pode exigir ajustes manuais, o que pode ser demorado e propenso a erros humanos. Para superar tais limitações, este trabalho dá um passo inovador na construção de um gerador de pesos para sintetizar os pesos neurais para inicialização. Utilizamos a tarefa de tradução de imagem para imagem com redes generativas adversariais (GANs) como exemplo devido à facilidade de coletar pesos do modelo abrangendo uma ampla gama. Especificamente, primeiro coletamos um conjunto de dados com vários conceitos de edição de imagem e seus pesos treinados correspondentes, que são posteriormente utilizados para o treinamento do gerador de pesos. Para lidar com as diferentes características entre as camadas e o grande número de pesos a serem previstos, dividimos os pesos em blocos de tamanho igual e atribuímos a cada bloco um índice. Posteriormente, um modelo de difusão é treinado com esse conjunto de dados usando tanto condições de texto do conceito quanto os índices de bloco. Ao inicializar o modelo de tradução de imagem com os pesos denoizados previstos por nosso modelo de difusão, o treinamento requer apenas 43,3 segundos. Comparado ao treinamento do zero (ou seja, Pix2pix), alcançamos uma aceleração de tempo de treinamento de 15 vezes para um novo conceito, enquanto obtemos uma qualidade de geração de imagem ainda melhor.

English

Good weight initialization serves as an effective measure to reduce the training cost of a deep neural network (DNN) model. The choice of how to initialize parameters is challenging and may require manual tuning, which can be time-consuming and prone to human error. To overcome such limitations, this work takes a novel step towards building a weight generator to synthesize the neural weights for initialization. We use the image-to-image translation task with generative adversarial networks (GANs) as an example due to the ease of collecting model weights spanning a wide range. Specifically, we first collect a dataset with various image editing concepts and their corresponding trained weights, which are later used for the training of the weight generator. To address the different characteristics among layers and the substantial number of weights to be predicted, we divide the weights into equal-sized blocks and assign each block an index. Subsequently, a diffusion model is trained with such a dataset using both text conditions of the concept and the block indexes. By initializing the image translation model with the denoised weights predicted by our diffusion model, the training requires only 43.3 seconds. Compared to training from scratch (i.e., Pix2pix), we achieve a 15x training time acceleration for a new concept while obtaining even better image generation quality.

Treinamento Eficiente com Pesos Neurais Desnecessados

Efficient Training with Denoised Neural Weights

Resumo

Support