Efficiënte training met gedenoisde neurale gewichten
Efficient Training with Denoised Neural Weights
July 16, 2024
Auteurs: Yifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren
cs.AI
Samenvatting
Een goede gewichtsinitialisatie dient als een effectieve maatregel om de
trainingskosten van een diep neuraal netwerk (DNN) model te verlagen. De keuze
van hoe parameters te initialiseren is uitdagend en kan handmatige afstemming
vereisen, wat tijdrovend en gevoelig voor menselijke fouten kan zijn. Om deze
beperkingen te overwinnen, zet dit werk een nieuwe stap in het ontwikkelen van
een gewichtsgenerator om de neurale gewichten voor initialisatie te synthetiseren.
We gebruiken de beeld-naar-beeld vertaaltaak met generatieve adversariële netwerken
(GANs) als voorbeeld vanwege het gemak van het verzamelen van modelgewichten die
een breed scala beslaan. Specifiek verzamelen we eerst een dataset met diverse
beeldbewerkingsconcepten en hun corresponderende getrainde gewichten, die later
worden gebruikt voor het trainen van de gewichtsgenerator. Om de verschillende
kenmerken tussen lagen en het aanzienlijke aantal te voorspellen gewichten aan
te pakken, verdelen we de gewichten in gelijkmatige blokken en wijzen we elk
blok een index toe. Vervolgens wordt een diffusiemodel getraind met een dergelijke
dataset, waarbij zowel tekstcondities van het concept als de blokindexen worden
gebruikt. Door het beeldvertaalmodel te initialiseren met de gedenoiseerde gewichten
die door ons diffusiemodel worden voorspeld, duurt de training slechts 43,3 seconden.
Vergeleken met trainen vanaf nul (d.w.z. Pix2pix), bereiken we een 15x versnelling
van de trainingsduur voor een nieuw concept, terwijl we zelfs een betere beeldgeneratiekwaliteit
verkrijgen.
English
Good weight initialization serves as an effective measure to reduce the
training cost of a deep neural network (DNN) model. The choice of how to
initialize parameters is challenging and may require manual tuning, which can
be time-consuming and prone to human error. To overcome such limitations, this
work takes a novel step towards building a weight generator to synthesize the
neural weights for initialization. We use the image-to-image translation task
with generative adversarial networks (GANs) as an example due to the ease of
collecting model weights spanning a wide range. Specifically, we first collect
a dataset with various image editing concepts and their corresponding trained
weights, which are later used for the training of the weight generator. To
address the different characteristics among layers and the substantial number
of weights to be predicted, we divide the weights into equal-sized blocks and
assign each block an index. Subsequently, a diffusion model is trained with
such a dataset using both text conditions of the concept and the block indexes.
By initializing the image translation model with the denoised weights predicted
by our diffusion model, the training requires only 43.3 seconds. Compared to
training from scratch (i.e., Pix2pix), we achieve a 15x training time
acceleration for a new concept while obtaining even better image generation
quality.