Diffusione di Reti Neurali
Neural Network Diffusion
February 20, 2024
Autori: Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You
cs.AI
Abstract
I modelli di diffusione hanno ottenuto un successo straordinario nella generazione di immagini e video. In questo lavoro, dimostriamo che i modelli di diffusione possono anche generare parametri di reti neurali ad alte prestazioni. Il nostro approccio è semplice, utilizzando un autoencoder e un modello di diffusione latente standard. L'autoencoder estrae rappresentazioni latenti di un sottoinsieme dei parametri della rete addestrata. Un modello di diffusione viene quindi addestrato per sintetizzare queste rappresentazioni latenti dei parametri partendo da rumore casuale. Successivamente, genera nuove rappresentazioni che vengono passate attraverso il decoder dell'autoencoder, i cui output sono pronti per essere utilizzati come nuovi sottoinsiemi di parametri della rete. Attraverso varie architetture e dataset, il nostro processo di diffusione genera costantemente modelli con prestazioni comparabili o migliori rispetto alle reti addestrate, con un costo aggiuntivo minimo. In particolare, troviamo empiricamente che i modelli generati si comportano in modo diverso rispetto alle reti addestrate. I nostri risultati incoraggiano ulteriori esplorazioni sull'uso versatile dei modelli di diffusione.
English
Diffusion models have achieved remarkable success in image and video
generation. In this work, we demonstrate that diffusion models can also
generate high-performing neural network parameters. Our approach is
simple, utilizing an autoencoder and a standard latent diffusion model. The
autoencoder extracts latent representations of a subset of the trained network
parameters. A diffusion model is then trained to synthesize these latent
parameter representations from random noise. It then generates new
representations that are passed through the autoencoder's decoder, whose
outputs are ready to use as new subsets of network parameters. Across various
architectures and datasets, our diffusion process consistently generates models
of comparable or improved performance over trained networks, with minimal
additional cost. Notably, we empirically find that the generated models perform
differently with the trained networks. Our results encourage more exploration
on the versatile use of diffusion models.