Voorkomen van Voortijdig Ineenstorten: Adaptief Afkoelen voor Entropie-geregulariseerde Structurele Inferentie
Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
January 30, 2026
Auteurs: Yizhi Liu
cs.AI
Samenvatting
Differentieerbare matching-lagen en residual connection-paradigma's, vaak geïmplementeerd via entropie-geregulariseerd Optimaal Transport (OT), fungeren als cruciale mechanismen bij structurele voorspelling en architecturale schaling. Het herstellen van discrete permutaties of het handhaven van identiteitsafbeeldingen door ε naar 0 te annealen is echter berucht om zijn instabiliteit. In dit werk identificeren we een fundamenteel mechanisme voor dit falen: Voortijdige Mode-Collaps. Door de niet-normale dynamiek van de Sinkhorn-fixed-point-afbeelding te analyseren, onthullen we een theoretische thermodynamische snelheidslimiet: standaard exponentiële afkoeling overtreft de contractiesnelheid van de inferentie-operator, die afneemt als O(1/ε). Om dit aan te pakken, stellen we Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) voor, een adaptief planningsalgoritme dat de stabiliteit van het inferentieproces bewaakt. We tonen aan dat EPH-ASC essentieel is voor het stabiliseren van Manifold-Constrained Hyper-Connections (mHC) tijdens grootschalige training op de FineWeb-Edu-dataset, door het afdwingen van een lineaire stabiliteitswet effectief laat-fase gradientexplosies voorkomt.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.