ChatPaper.aiChatPaper

Evitare il Collasso Prematuro: Riscaldamento Adattivo per l'Inferenza Strutturale con Regolarizzazione Entropica

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

January 30, 2026
Autori: Yizhi Liu
cs.AI

Abstract

Gli strati di matching differenziabili e i paradigmi di connessione residua, spesso implementati tramite Trasporto Ottimale (OT) regolarizzato con entropia, fungono da meccanismi critici nella predizione strutturale e nel ridimensionamento architetturale. Tuttavia, il recupero di permutazioni discrete o il mantenimento di mappature d'identità mediante l'annichilimento di ε a 0 è notoriamente instabile. In questo lavoro, identifichiamo un meccanismo fondamentale alla base di questo fallimento: il Collasso Prematuro dei Modi. Analizzando la dinamica non normale della mappa a punto fisso di Sinkhorn, riveliamo un limite teorico di velocità termodinamica: il raffreddamento esponenziale standard supera il tasso di contrazione dell'operatore di inferenza, che si degrada come O(1/ε). Per affrontare questo problema, proponiamo il Controllo Adattivo della Stabilità Ibrido a Tratti Efficiente (EPH-ASC), un algoritmo di schedulazione adattiva che monitora la stabilità del processo inferenziale. Dimostriamo che EPH-ASC è essenziale per stabilizzare le Connessioni Iper-Controllate su Varietà (mHC) durante l'addestramento su larga scala sul dataset FineWeb-Edu, prevenendo efficacemente esplosioni del gradiente nelle fasi finali mediante l'imposizione di una legge di stabilità lineare.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
PDF13March 31, 2026