La théorie de Hamilton-Jacobi de l'apprentissage profond

Résumé

Dans cet article, l’apprentissage d’un réseau de neurones est identifié, de manière exacte, comme une recherche parmi des problèmes de valeurs initiales de Hamilton–Jacobi : chaque étape de gradient sélectionne la donnée initiale d’une équation de Hamilton–Jacobi visqueuse dont le propagateur de Hopf–Cole s’ajuste au mieux aux observations ; lors de l’inférence, l’entrée est le point spatial auquel cette solution est évaluée et la condition initiale est déjà encodée dans les poids. La correspondance est exacte pour les couches log-sum-exp et structurelle pour des architectures plus larges : les réseaux résiduels, les transformeurs et les architectures récurrentes (RNN, LSTM, SSM) discrétisent chacun la même classe d’équations de Hamilton–Jacobi, avec un hamiltonien et une viscosité dépendant de l’architecture. Un unique paramètre de déformation varepsilon unifie les quatre perspectives (réseau, algèbre tropicale, EDP visqueuse, optimisation convexe) dans un diagramme commutatif fermé sous conditions de Lipschitz. Les conséquences quantitatives incluent : le taux de généralisation optimal minimax O(n^{-1/(d+2)}) pour t fixe ; la robustesse adversarial contrôlée par varepsilon ; la rétropropagation comme équation d’état adjoint du système hamiltonien pour les réseaux résiduels (Principe du Maximum de Pontriaguine) ; des exposants d’échelle cohérents avec la dimension intrinsèque des données via quadrature d’EDP ; et une fonction d’influence en O(N) de forme fermée (poids d’attribution softmax π_j) dont le paysage d’entropie subit des bifurcations de pli lorsque varepsilon augmente, chacune fusionnant des bassins d’attribution.

English

In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter varepsilon unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate O(n^{-1/(d+2)}) for fixed t; adversarial robustness controlled by varepsilon; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form O(N) influence function (softmax attribution weights π_j) whose entropy landscape undergoes fold bifurcations as varepsilon increases, each merging attribution basins.