A Teoria de Hamilton-Jacobi do Aprendizado Profundo
The Hamilton-Jacobi Theory of Deep Learning
May 27, 2026
Autores: Jose Marie Antonio Miñoza, Erika Fille T. Legara, Christopher P. Monterola
cs.AI
Resumo
Neste artigo, o treinamento de uma rede neural é identificado, exatamente, como uma busca por problemas de valor inicial de Hamilton–Jacobi: cada passo de gradiente seleciona os dados iniciais de uma equação de Hamilton–Jacobi viscosa cujo propagador de Hopf–Cole melhor se ajusta às observações; na inferência, a entrada é o ponto espacial no qual essa solução é avaliada e a condição inicial já está codificada nos pesos. A correspondência é exata para camadas log-sum-exp e estrutural para arquiteturas mais amplas: redes residuais, transformadores e arquiteturas recorrentes (RNNs, LSTMs, SSMs) cada uma discretiza a mesma classe de equações de Hamilton–Jacobi, com Hamiltoniano e viscosidade dependentes da arquitetura. Um único parâmetro de deformação varepsilon unifica todas as quatro perspectivas (rede, álgebra tropical, EDP viscosa, otimização convexa) em um diagrama comutativo fechado sob condições de Lipschitz. As consequências quantitativas incluem: a taxa de generalização ótima minimax O(n^{-1/(d+2)}) para t fixo; robustez adversarial controlada por varepsilon; retropropagação como a equação de coestado do sistema Hamiltoniano para redes residuais (Princípio do Máximo de Pontryagin); expoentes de escala consistentes com a dimensão intrínseca dos dados via quadratura de EDP; e uma função de influência de forma fechada O(N) (pesos de atribuição softmax π_j) cuja paisagem de entropia sofre bifurcações de dobra à medida que varepsilon aumenta, cada uma fundindo bacias de atribuição.
English
In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter varepsilon unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate O(n^{-1/(d+2)}) for fixed t; adversarial robustness controlled by varepsilon; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form O(N) influence function (softmax attribution weights π_j) whose entropy landscape undergoes fold bifurcations as varepsilon increases, each merging attribution basins.