Dale incontra Langevin: Un modello di diffusione del rumore moltiplicativo
Dale meets Langevin: A Multiplicative Denoising Diffusion Model
October 3, 2025
Autori: Nishanth Shetty, Madhava Prasath, Chandra Sekhar Seelamantula
cs.AI
Abstract
La discesa del gradiente si è dimostrata una tecnica potente ed efficace per l'ottimizzazione in numerose applicazioni di apprendimento automatico. Recenti progressi nelle neuroscienze computazionali hanno dimostrato che l'apprendimento nella formulazione standard dell'ottimizzazione a discesa del gradiente non è coerente con l'apprendimento nei sistemi biologici. Ciò ha aperto interessanti prospettive per lo sviluppo di tecniche di apprendimento ispirate alla biologia. Un approccio di questo tipo è ispirato alla legge di Dale, che afferma che le sinapsi inibitorie ed eccitatorie non scambiano i loro ruoli durante il processo di apprendimento. Lo schema di ottimizzazione a discesa del gradiente esponenziale risultante porta a pesi sinaptici distribuiti in modo log-normale. Curiosamente, la densità che soddisfa l'equazione di Fokker-Planck corrispondente all'equazione differenziale stocastica (SDE) con moto browniano geometrico (GBM) è la densità log-normale. Sfruttando questa connessione, partiamo dall'SDE che governa il moto browniano geometrico e mostriamo che la discretizzazione della corrispondente SDE a tempo inverso produce una regola di aggiornamento moltiplicativa, che, sorprendentemente, coincide con l'equivalente campionario dell'aggiornamento a discesa del gradiente esponenziale basato sulla legge di Dale. Inoltre, proponiamo un nuovo formalismo per il matching del punteggio di denoising moltiplicativo, che include la funzione di perdita proposta da Hyvaerinen per dati non negativi. Infatti, i dati distribuiti in modo log-normale sono positivi e il formalismo di matching del punteggio proposto si rivela una scelta naturale. Ciò consente l'addestramento di modelli basati sul punteggio per dati immagine e porta a un nuovo schema di aggiornamento moltiplicativo per la generazione di campioni partendo da una densità log-normale. I risultati sperimentali sui dataset MNIST, Fashion MNIST e Kuzushiji dimostrano la capacità generativa del nuovo schema. Per quanto ne sappiamo, questa è la prima istanza di un modello generativo ispirato alla biologia che utilizza aggiornamenti moltiplicativi, fondati sul moto browniano geometrico.
English
Gradient descent has proven to be a powerful and effective technique for
optimization in numerous machine learning applications. Recent advances in
computational neuroscience have shown that learning in standard gradient
descent optimization formulation is not consistent with learning in biological
systems. This has opened up interesting avenues for building biologically
inspired learning techniques. One such approach is inspired by Dale's law,
which states that inhibitory and excitatory synapses do not swap roles during
the course of learning. The resulting exponential gradient descent optimization
scheme leads to log-normally distributed synaptic weights. Interestingly, the
density that satisfies the Fokker-Planck equation corresponding to the
stochastic differential equation (SDE) with geometric Brownian motion (GBM) is
the log-normal density. Leveraging this connection, we start with the SDE
governing geometric Brownian motion, and show that discretizing the
corresponding reverse-time SDE yields a multiplicative update rule, which
surprisingly, coincides with the sampling equivalent of the exponential
gradient descent update founded on Dale's law. Furthermore, we propose a new
formalism for multiplicative denoising score-matching, subsuming the loss
function proposed by Hyvaerinen for non-negative data. Indeed, log-normally
distributed data is positive and the proposed score-matching formalism turns
out to be a natural fit. This allows for training of score-based models for
image data and results in a novel multiplicative update scheme for sample
generation starting from a log-normal density. Experimental results on MNIST,
Fashion MNIST, and Kuzushiji datasets demonstrate generative capability of the
new scheme. To the best of our knowledge, this is the first instance of a
biologically inspired generative model employing multiplicative updates,
founded on geometric Brownian motion.