Vermeidung vorzeitigen Zusammenbruchs: Adaptive Abkühlung für entropie-regularisierte strukturelle Inferenz
Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
January 30, 2026
Autoren: Yizhi Liu
cs.AI
Zusammenfassung
Differenzierbare Matching-Schichten und Residual-Connection-Paradigmen, häufig implementiert über entropie-regulariertes Optimales Transport (OT), dienen als kritische Mechanismen in der strukturellen Vorhersage und architektonischen Skalierung. Die Wiederherstellung diskreter Permutationen oder die Beibehaltung von Identitätsabbildungen durch Annealing von ε gegen 0 ist jedoch notorisch instabil. In dieser Arbeit identifizieren wir einen grundlegenden Mechanismus für dieses Versagen: Vorzeitigen Modus-Zusammenbruch (Premature Mode Collapse). Durch die Analyse der nicht-normalen Dynamik der Sinkhorn-Fixpunktabbildung decken wir ein theoretisches thermodynamisches Geschwindigkeitslimit auf: Standardmäßiges exponentielles Abkühlen überholt die Kontraktionsrate des Inferenzoperators, die sich mit O(1/ε) verschlechtert. Um dies zu adressieren, schlagen wir Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) vor, einen adaptiven Scheduling-Algorithmus, der die Stabilität des Inferenzprozesses überwacht. Wir demonstrieren, dass EPH-ASC essenziell für die Stabilisierung von Manifold-Constrained Hyper-Connections (mHC) während des Large-Scale-Trainings auf dem FineWeb-Edu-Datensatz ist, indem es ein lineares Stabilitätsgesetz durchsetzt und so Gradientenexplosionen in späten Trainingsphasen wirksam verhindert.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.