ChatPaper.aiChatPaper

디노이즈된 신경 가중치를 활용한 효율적 학습

Efficient Training with Denoised Neural Weights

July 16, 2024
저자: Yifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren
cs.AI

초록

좋은 가중치 초기화는 심층 신경망(DNN) 모델의 학습 비용을 줄이는 효과적인 방법으로 작용합니다. 매개변수를 초기화하는 방법을 선택하는 것은 어려운 작업이며 수동 조정이 필요할 수 있어 시간이 많이 소요되고 인간의 실수가 발생하기 쉽습니다. 이러한 한계를 극복하기 위해, 본 연구는 신경망 가중치를 초기화하기 위해 가중치 생성기를 구축하는 새로운 접근 방식을 제안합니다. 우리는 다양한 범위의 모델 가중치를 쉽게 수집할 수 있기 때문에 생성적 적대 신경망(GANs)을 사용한 이미지-이미지 변환 작업을 예시로 사용합니다. 구체적으로, 우리는 먼저 다양한 이미지 편집 개념과 그에 해당하는 학습된 가중치로 구성된 데이터셋을 수집한 후, 이를 가중치 생성기의 학습에 사용합니다. 계층 간의 서로 다른 특성과 예측해야 할 가중치의 방대한 수를 해결하기 위해, 우리는 가중치를 동일한 크기의 블록으로 나누고 각 블록에 인덱스를 할당합니다. 이후, 개념과 블록 인덱스의 텍스트 조건을 모두 사용하여 확산 모델을 해당 데이터셋으로 학습시킵니다. 우리의 확산 모델이 예측한 노이즈가 제거된 가중치로 이미지 변환 모델을 초기화함으로써, 학습에는 단 43.3초만이 소요됩니다. 처음부터 학습하는 경우(즉, Pix2pix)와 비교했을 때, 새로운 개념에 대해 15배의 학습 시간 가속을 달성하면서도 더 나은 이미지 생성 품질을 얻을 수 있습니다.
English
Good weight initialization serves as an effective measure to reduce the training cost of a deep neural network (DNN) model. The choice of how to initialize parameters is challenging and may require manual tuning, which can be time-consuming and prone to human error. To overcome such limitations, this work takes a novel step towards building a weight generator to synthesize the neural weights for initialization. We use the image-to-image translation task with generative adversarial networks (GANs) as an example due to the ease of collecting model weights spanning a wide range. Specifically, we first collect a dataset with various image editing concepts and their corresponding trained weights, which are later used for the training of the weight generator. To address the different characteristics among layers and the substantial number of weights to be predicted, we divide the weights into equal-sized blocks and assign each block an index. Subsequently, a diffusion model is trained with such a dataset using both text conditions of the concept and the block indexes. By initializing the image translation model with the denoised weights predicted by our diffusion model, the training requires only 43.3 seconds. Compared to training from scratch (i.e., Pix2pix), we achieve a 15x training time acceleration for a new concept while obtaining even better image generation quality.

Summary

AI-Generated Summary

PDF93November 28, 2024