Éviter l'effondrement prématuré : Recuit adaptatif pour l'inférence structurelle régularisée par entropie
Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
January 30, 2026
Auteurs: Yizhi Liu
cs.AI
Résumé
Les couches d'appariement différentiables et les paradigmes de connexion résiduelle, souvent implémentés via le Transport Optimal (TO) régularisé par entropie, constituent des mécanismes critiques pour la prédiction structurelle et la mise à l'échelle architecturale. Cependant, la récupération de permutations discrètes ou le maintien de mappages d'identité via un recuit de ε vers 0 sont notoirement instables. Dans ce travail, nous identifions un mécanisme fondamental à l'origine de cet échec : l'effondrement prématuré des modes. En analysant la dynamique non normale de l'application à point fixe de Sinkhorn, nous révélons une limite de vitesse thermodynamique théorique : le refroidissement exponentiel standard dépasse le taux de contraction de l'opérateur d'inférence, qui se dégrade en O(1/ε). Pour résoudre ce problème, nous proposons le Contrôle Adaptatif de Stabilité Hybride Par Morceaux Efficace (EPH-ASC), un algorithme d'ordonnancement adaptatif qui surveille la stabilité du processus d'inférence. Nous démontrons que l'EPH-ASC est essentiel pour stabiliser les Hyper-Connexions à Contrainte de Variété (mHC) lors de l'entraînement à grande échelle sur le jeu de données FineWeb-Edu, empêchant efficacement les explosions de gradient en phase finale en imposant une loi de stabilité linéaire.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.