Dale encontra Langevin: Um Modelo de Difusão de Ruído Multiplicativo
Dale meets Langevin: A Multiplicative Denoising Diffusion Model
October 3, 2025
Autores: Nishanth Shetty, Madhava Prasath, Chandra Sekhar Seelamantula
cs.AI
Resumo
O gradiente descendente tem se mostrado uma técnica poderosa e eficaz para otimização em inúmeras aplicações de aprendizado de máquina. Avanços recentes em neurociência computacional demonstraram que o aprendizado na formulação padrão de otimização por gradiente descendente não é consistente com o aprendizado em sistemas biológicos. Isso abriu caminhos interessantes para a construção de técnicas de aprendizado inspiradas na biologia. Uma dessas abordagens é inspirada na lei de Dale, que afirma que sinapses inibitórias e excitatórias não trocam de papéis durante o processo de aprendizado. O esquema de otimização por gradiente descendente exponencial resultante leva a pesos sinápticos distribuídos de forma log-normal. Curiosamente, a densidade que satisfaz a equação de Fokker-Planck correspondente à equação diferencial estocástica (EDE) com movimento browniano geométrico (MBG) é a densidade log-normal. Aproveitando essa conexão, começamos com a EDE que governa o movimento browniano geométrico e mostramos que a discretização da EDE reversa no tempo correspondente resulta em uma regra de atualização multiplicativa, que, surpreendentemente, coincide com a amostragem equivalente da atualização do gradiente descendente exponencial baseada na lei de Dale. Além disso, propomos um novo formalismo para correspondência de pontuação de denoização multiplicativa, englobando a função de perda proposta por Hyvaerinen para dados não negativos. De fato, dados distribuídos de forma log-normal são positivos, e o formalismo de correspondência de pontuação proposto acaba sendo uma escolha natural. Isso permite o treinamento de modelos baseados em pontuação para dados de imagem e resulta em um novo esquema de atualização multiplicativa para geração de amostras a partir de uma densidade log-normal. Resultados experimentais nos conjuntos de dados MNIST, Fashion MNIST e Kuzushiji demonstram a capacidade gerativa do novo esquema. Até onde sabemos, esta é a primeira instância de um modelo gerativo inspirado na biologia que emprega atualizações multiplicativas, fundamentado no movimento browniano geométrico.
English
Gradient descent has proven to be a powerful and effective technique for
optimization in numerous machine learning applications. Recent advances in
computational neuroscience have shown that learning in standard gradient
descent optimization formulation is not consistent with learning in biological
systems. This has opened up interesting avenues for building biologically
inspired learning techniques. One such approach is inspired by Dale's law,
which states that inhibitory and excitatory synapses do not swap roles during
the course of learning. The resulting exponential gradient descent optimization
scheme leads to log-normally distributed synaptic weights. Interestingly, the
density that satisfies the Fokker-Planck equation corresponding to the
stochastic differential equation (SDE) with geometric Brownian motion (GBM) is
the log-normal density. Leveraging this connection, we start with the SDE
governing geometric Brownian motion, and show that discretizing the
corresponding reverse-time SDE yields a multiplicative update rule, which
surprisingly, coincides with the sampling equivalent of the exponential
gradient descent update founded on Dale's law. Furthermore, we propose a new
formalism for multiplicative denoising score-matching, subsuming the loss
function proposed by Hyvaerinen for non-negative data. Indeed, log-normally
distributed data is positive and the proposed score-matching formalism turns
out to be a natural fit. This allows for training of score-based models for
image data and results in a novel multiplicative update scheme for sample
generation starting from a log-normal density. Experimental results on MNIST,
Fashion MNIST, and Kuzushiji datasets demonstrate generative capability of the
new scheme. To the best of our knowledge, this is the first instance of a
biologically inspired generative model employing multiplicative updates,
founded on geometric Brownian motion.