Die Hamilton-Jacobi-Theorie des Deep Learning

Zusammenfassung

In dieser Arbeit wird das Training eines neuronalen Netzes exakt als eine Suche durch Hamilton-Jacobi-Anfangswertprobleme identifiziert: jeder Gradientenschritt wählt die Anfangsdaten einer viskosen Hamilton-Jacobi-Gleichung, deren Hopf-Cole-Propagator am besten zu den Beobachtungen passt; bei der Inferenz ist der Eingabe der räumliche Punkt, an dem diese Lösung ausgewertet wird, und die Anfangsbedingung ist bereits in den Gewichten kodiert. Die Korrespondenz ist exakt für Log-Sum-Exp-Schichten und strukturell für breitere Architekturen: Residualnetzwerke, Transformatoren und rekurrente Architekturen (RNNs, LSTMs, SSMs) diskretisieren jeweils dieselbe Klasse von Hamilton-Jacobi-Gleichungen, mit architekturabhängigem Hamilton-Operator und Viskosität. Ein einzelner Deformationsparameter \(\varepsilon\) vereint alle vier Perspektiven (Netzwerk, tropische Algebra, viskose PDE, konvexe Optimierung) in einem kommutativen Diagramm, das unter Lipschitz-Bedingungen abgeschlossen ist. Zu den quantitativen Konsequenzen gehören: die minimax-optimale Generalisierungsrate \(O(n^{-1/(d+2)})\) für festes \(t\); adversarial Robustheit, gesteuert durch \(\varepsilon\); Backpropagation als die Kostenzustandsgleichung des Hamilton-Systems für Residualnetzwerke (Pontryagin-Maximumprinzip); Skalierungsexponenten, die mit der intrinsischen Dimension der Daten mittels PDE-Quadratur übereinstimmen; und eine geschlossene \(O(N)\)-Einflussfunktion (Softmax-Attributionsgewichte \(\pi_j\)), deren Entropielandschaft mit zunehmendem \(\varepsilon\) Faltenverzweigungen durchläuft, die jeweils Attributionsbecken verschmelzen.

English

In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter varepsilon unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate O(n^{-1/(d+2)}) for fixed t; adversarial robustness controlled by varepsilon; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form O(N) influence function (softmax attribution weights π_j) whose entropy landscape undergoes fold bifurcations as varepsilon increases, each merging attribution basins.