ChatPaper.aiChatPaper

Diffusione di Reti Neurali

Neural Network Diffusion

February 20, 2024
Autori: Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You
cs.AI

Abstract

I modelli di diffusione hanno ottenuto un successo straordinario nella generazione di immagini e video. In questo lavoro, dimostriamo che i modelli di diffusione possono anche generare parametri di reti neurali ad alte prestazioni. Il nostro approccio è semplice, utilizzando un autoencoder e un modello di diffusione latente standard. L'autoencoder estrae rappresentazioni latenti di un sottoinsieme dei parametri della rete addestrata. Un modello di diffusione viene quindi addestrato per sintetizzare queste rappresentazioni latenti dei parametri partendo da rumore casuale. Successivamente, genera nuove rappresentazioni che vengono passate attraverso il decoder dell'autoencoder, i cui output sono pronti per essere utilizzati come nuovi sottoinsiemi di parametri della rete. Attraverso varie architetture e dataset, il nostro processo di diffusione genera costantemente modelli con prestazioni comparabili o migliori rispetto alle reti addestrate, con un costo aggiuntivo minimo. In particolare, troviamo empiricamente che i modelli generati si comportano in modo diverso rispetto alle reti addestrate. I nostri risultati incoraggiano ulteriori esplorazioni sull'uso versatile dei modelli di diffusione.
English
Diffusion models have achieved remarkable success in image and video generation. In this work, we demonstrate that diffusion models can also generate high-performing neural network parameters. Our approach is simple, utilizing an autoencoder and a standard latent diffusion model. The autoencoder extracts latent representations of a subset of the trained network parameters. A diffusion model is then trained to synthesize these latent parameter representations from random noise. It then generates new representations that are passed through the autoencoder's decoder, whose outputs are ready to use as new subsets of network parameters. Across various architectures and datasets, our diffusion process consistently generates models of comparable or improved performance over trained networks, with minimal additional cost. Notably, we empirically find that the generated models perform differently with the trained networks. Our results encourage more exploration on the versatile use of diffusion models.
PDF9810December 15, 2024