Предотвращение преждевременного коллапса: адаптивный отжиг для энтропийно-регуляризованного структурного вывода
Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
January 30, 2026
Авторы: Yizhi Liu
cs.AI
Аннотация
Дифференцируемые согласующие слои и парадигмы остаточных связей, часто реализуемые с помощью энтропийно-регуляризованного оптимального транспорта (ОТ), служат критически важными механизмами в структурном прогнозировании и масштабировании архитектур. Однако восстановление дискретных перестановок или поддержание тождественных отображений путем аннелинга ε к нулю является печально известной нестабильной задачей. В данной работе мы выявляем фундаментальный механизм этой неудачи: преждевременный коллапс мод. Анализируя ненормальную динамику фиксированной точки отображения Зинхорна, мы раскрываем теоретический термодинамический предел скорости: стандартное экспоненциальное охлаждение опережает скорость сжатия оператора вывода, которая ухудшается как O(1/ε). Для решения этой проблемы мы предлагаем Эффективный кусочно-гибридный адаптивный контроль стабильности (Efficient Piecewise Hybrid Adaptive Stability Control, EPH-ASC) — адаптивный алгоритм планирования, который отслеживает устойчивость процесса вывода. Мы демонстрируем, что EPH-ASC необходим для стабилизации многообразие-ограниченных гипер-связей (mHC) в процессе обучения в крупном масштабе на наборе данных FineWeb-Edu, эффективно предотвращая взрывы градиента на поздних стадиях за счет обеспечения закона линейной устойчивости.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.