Dale ontmoet Langevin: Een multiplicatief denoising diffusiemodel

Samenvatting

Gradient descent heeft zich bewezen als een krachtige en effectieve techniek voor optimalisatie in talloze machine learning-toepassingen. Recente vooruitgang in de computationele neurowetenschappen heeft aangetoond dat leren in de standaard gradient descent-optimalisatieformulering niet consistent is met leren in biologische systemen. Dit heeft interessante mogelijkheden geopend voor het ontwikkelen van biologisch geïnspireerde leertechnieken. Een dergelijke benadering is geïnspireerd op de wet van Dale, die stelt dat remmende en exciterende synapsen niet van rol wisselen tijdens het leerproces. Het resulterende exponentiële gradient descent-optimalisatieschema leidt tot log-normaal verdeelde synaptische gewichten. Interessant genoeg is de dichtheid die voldoet aan de Fokker-Planck-vergelijking die overeenkomt met de stochastische differentiaalvergelijking (SDE) met geometrische Brownse beweging (GBM) de log-normale dichtheid. Door gebruik te maken van deze connectie beginnen we met de SDE die geometrische Brownse beweging beschrijft, en laten we zien dat het discretiseren van de bijbehorende omgekeerde-tijd SDE een multiplicatieve update-regel oplevert, die verrassend genoeg overeenkomt met de steekproefequivalent van de exponentiële gradient descent-update gebaseerd op de wet van Dale. Bovendien stellen we een nieuw formalisme voor voor multiplicatieve denoising score-matching, dat de verliesfunctie die door Hyvaerinen is voorgesteld voor niet-negatieve data omvat. Inderdaad is log-normaal verdeelde data positief en blijkt het voorgestelde score-matching formalisme een natuurlijke passendheid te hebben. Dit maakt het mogelijk om score-gebaseerde modellen te trainen voor beelddata en resulteert in een nieuw multiplicatief updateschema voor het genereren van steekproeven vanuit een log-normale dichtheid. Experimentele resultaten op de MNIST-, Fashion MNIST- en Kuzushiji-datasets demonstreren het generatieve vermogen van het nieuwe schema. Voor zover wij weten, is dit het eerste voorbeeld van een biologisch geïnspireerd generatief model dat multiplicatieve updates gebruikt, gebaseerd op geometrische Brownse beweging.

English

Gradient descent has proven to be a powerful and effective technique for optimization in numerous machine learning applications. Recent advances in computational neuroscience have shown that learning in standard gradient descent optimization formulation is not consistent with learning in biological systems. This has opened up interesting avenues for building biologically inspired learning techniques. One such approach is inspired by Dale's law, which states that inhibitory and excitatory synapses do not swap roles during the course of learning. The resulting exponential gradient descent optimization scheme leads to log-normally distributed synaptic weights. Interestingly, the density that satisfies the Fokker-Planck equation corresponding to the stochastic differential equation (SDE) with geometric Brownian motion (GBM) is the log-normal density. Leveraging this connection, we start with the SDE governing geometric Brownian motion, and show that discretizing the corresponding reverse-time SDE yields a multiplicative update rule, which surprisingly, coincides with the sampling equivalent of the exponential gradient descent update founded on Dale's law. Furthermore, we propose a new formalism for multiplicative denoising score-matching, subsuming the loss function proposed by Hyvaerinen for non-negative data. Indeed, log-normally distributed data is positive and the proposed score-matching formalism turns out to be a natural fit. This allows for training of score-based models for image data and results in a novel multiplicative update scheme for sample generation starting from a log-normal density. Experimental results on MNIST, Fashion MNIST, and Kuzushiji datasets demonstrate generative capability of the new scheme. To the best of our knowledge, this is the first instance of a biologically inspired generative model employing multiplicative updates, founded on geometric Brownian motion.

Dale ontmoet Langevin: Een multiplicatief denoising diffusiemodel

Dale meets Langevin: A Multiplicative Denoising Diffusion Model

Samenvatting

Support