Dale se encuentra con Langevin: Un modelo de difusión de denoising multiplicativo
Dale meets Langevin: A Multiplicative Denoising Diffusion Model
October 3, 2025
Autores: Nishanth Shetty, Madhava Prasath, Chandra Sekhar Seelamantula
cs.AI
Resumen
El descenso de gradiente ha demostrado ser una técnica poderosa y efectiva para la optimización en numerosas aplicaciones de aprendizaje automático. Avances recientes en neurociencia computacional han mostrado que el aprendizaje en la formulación estándar de optimización por descenso de gradiente no es consistente con el aprendizaje en sistemas biológicos. Esto ha abierto interesantes vías para desarrollar técnicas de aprendizaje inspiradas en la biología. Un enfoque de este tipo se basa en la ley de Dale, la cual establece que las sinapsis inhibitorias y excitatorias no intercambian roles durante el proceso de aprendizaje. El esquema de optimización de descenso de gradiente exponencial resultante conduce a pesos sinápticos distribuidos de manera log-normal. Curiosamente, la densidad que satisface la ecuación de Fokker-Planck correspondiente a la ecuación diferencial estocástica (EDE) con movimiento browniano geométrico (MBG) es la densidad log-normal. Aprovechando esta conexión, comenzamos con la EDE que gobierna el movimiento browniano geométrico y mostramos que la discretización de la EDE en tiempo inverso correspondiente produce una regla de actualización multiplicativa, la cual, sorprendentemente, coincide con el equivalente de muestreo de la actualización de descenso de gradiente exponencial basada en la ley de Dale. Además, proponemos un nuevo formalismo para la coincidencia de puntuación multiplicativa de eliminación de ruido, que engloba la función de pérdida propuesta por Hyvärinen para datos no negativos. De hecho, los datos distribuidos de manera log-normal son positivos, y el formalismo de coincidencia de puntuación propuesto resulta ser una opción natural. Esto permite el entrenamiento de modelos basados en puntuación para datos de imágenes y da lugar a un novedoso esquema de actualización multiplicativa para la generación de muestras a partir de una densidad log-normal. Los resultados experimentales en los conjuntos de datos MNIST, Fashion MNIST y Kuzushiji demuestran la capacidad generativa del nuevo esquema. Hasta donde sabemos, esta es la primera instancia de un modelo generativo inspirado en la biología que emplea actualizaciones multiplicativas, basado en el movimiento browniano geométrico.
English
Gradient descent has proven to be a powerful and effective technique for
optimization in numerous machine learning applications. Recent advances in
computational neuroscience have shown that learning in standard gradient
descent optimization formulation is not consistent with learning in biological
systems. This has opened up interesting avenues for building biologically
inspired learning techniques. One such approach is inspired by Dale's law,
which states that inhibitory and excitatory synapses do not swap roles during
the course of learning. The resulting exponential gradient descent optimization
scheme leads to log-normally distributed synaptic weights. Interestingly, the
density that satisfies the Fokker-Planck equation corresponding to the
stochastic differential equation (SDE) with geometric Brownian motion (GBM) is
the log-normal density. Leveraging this connection, we start with the SDE
governing geometric Brownian motion, and show that discretizing the
corresponding reverse-time SDE yields a multiplicative update rule, which
surprisingly, coincides with the sampling equivalent of the exponential
gradient descent update founded on Dale's law. Furthermore, we propose a new
formalism for multiplicative denoising score-matching, subsuming the loss
function proposed by Hyvaerinen for non-negative data. Indeed, log-normally
distributed data is positive and the proposed score-matching formalism turns
out to be a natural fit. This allows for training of score-based models for
image data and results in a novel multiplicative update scheme for sample
generation starting from a log-normal density. Experimental results on MNIST,
Fashion MNIST, and Kuzushiji datasets demonstrate generative capability of the
new scheme. To the best of our knowledge, this is the first instance of a
biologically inspired generative model employing multiplicative updates,
founded on geometric Brownian motion.