Теория Гамильтона-Якоби глубокого обучения

Аннотация

В данной статье обучение нейронной сети точно отождествляется с поиском среди задач Коши для уравнения Гамильтона–Якоби: каждый шаг градиентного спуска выбирает начальные данные вязкого уравнения Гамильтона–Якоби, пропагатор Хопфа–Коула которого наилучшим образом соответствует наблюдениям; при инференсе входные данные представляют собой пространственную точку, в которой оценивается это решение, а начальное условие уже закодировано в весах. Соответствие является точным для слоев log-sum-exp и структурным для более широких архитектур: остаточные сети, трансформеры и рекуррентные архитектуры (RNN, LSTM, SSM) — каждая из них дискретизирует один и тот же класс уравнений Гамильтона–Якоби, с гамильтонианом и вязкостью, зависящими от архитектуры. Единый параметр деформации \(\varepsilon\) объединяет все четыре перспективы (сеть, тропическая алгебра, вязкое УЧП, выпуклая оптимизация) в коммутативной диаграмме, замкнутой относительно условий Липшица. Количественные следствия включают: минимаксно оптимальную скорость обобщения \(O(n^{-1/(d+2)})\) для фиксированного \(t\); состязательную устойчивость, контролируемую параметром \(\varepsilon\); обратное распространение как сопряженное уравнение гамильтоновой системы для остаточных сетей (принцип максимума Понтрягина); показатели масштабирования, согласующиеся с внутренней размерностью данных посредством квадратуры УЧП; и функцию влияния в замкнутой форме \(O(N)\) (веса атрибуции softmax \(\pi_j\)), чей ландшафт энтропии претерпевает бифуркации складки при увеличении \(\varepsilon\), причем каждая такая бифуркация сливает бассейны атрибуции.

English

In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter varepsilon unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate O(n^{-1/(d+2)}) for fixed t; adversarial robustness controlled by varepsilon; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form O(N) influence function (softmax attribution weights π_j) whose entropy landscape undergoes fold bifurcations as varepsilon increases, each merging attribution basins.