La Teoría de Hamilton-Jacobi del Aprendizaje Profundo

Resumen

En este artículo, el entrenamiento de una red neuronal se identifica, exactamente, como una búsqueda a través de problemas de valor inicial de Hamilton-Jacobi: cada paso de gradiente selecciona los datos iniciales de una ecuación viscosa de Hamilton-Jacobi cuyo propagador de Hopf-Cole se ajusta mejor a las observaciones; en la inferencia, la entrada es el punto espacial en el que se evalúa esa solución y la condición inicial ya está codificada en los pesos. La correspondencia es exacta para capas log-sum-exp y estructural para arquitecturas más amplias: las redes residuales, los transformadores y las arquitecturas recurrentes (RNN, LSTM, SSM) discretizan cada una la misma clase de ecuaciones de Hamilton-Jacobi, con hamiltoniano y viscosidad dependientes de la arquitectura. Un único parámetro de deformación ε unifica las cuatro perspectivas (red, álgebra tropical, EDP viscosa, optimización convexa) en un diagrama conmutativo cerrado bajo condiciones de Lipschitz. Las consecuencias cuantitativas incluyen: la tasa de generalización óptima minimax O(n^{-1/(d+2)}) para t fijo; robustez adversarial controlada por ε; la retropropagación como la ecuación co-estado del sistema hamiltoniano para redes residuales (Principio del Máximo de Pontryagin); exponentes de escalado consistentes con la dimensión intrínseca de los datos mediante cuadratura de EDP; y una función de influencia de forma cerrada O(N) (pesos de atribución softmax π_j) cuyo paisaje de entropía experimenta bifurcaciones en pliegue a medida que ε aumenta, fusionando cuencas de atribución.

English

In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter varepsilon unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate O(n^{-1/(d+2)}) for fixed t; adversarial robustness controlled by varepsilon; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form O(N) influence function (softmax attribution weights π_j) whose entropy landscape undergoes fold bifurcations as varepsilon increases, each merging attribution basins.