ChatPaper.aiChatPaper

조기 붕괴 회피: 엔트로피 정규화 구조 추론을 위한 적응형 어닐링

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

January 30, 2026
저자: Yizhi Liu
cs.AI

초록

미분 가능 매칭 계층과 잔차 연결 패러다임은 일반적으로 엔트로피 정규화 최적 수송(OT)을 통해 구현되며, 구조 예측 및 아키텍처 확장에서 핵심 메커니즘으로 작동합니다. 그러나 이산 순열을 복구하거나 ε을 0으로 서냉(annealing)하여 항등 매핑을 유지하는 것은 악명 높게 불안정합니다. 본 연구에서는 이러한 실패의 근본적 메커니즘인 '조기 모드 붕괴(Premature Mode Collapse)'를 규명합니다. 싱크호른 고정점 맵의 비정규 동역학을 분석함으로써 표준 지수 냉각이 추론 연산자의 수축율을 초과하는 이론적 열역학적 속도 한계를 밝혀내며, 이 수축율은 O(1/ε)로 저하됩니다. 이를 해결하기 위해 우리는 추론 과정의 안정성을 모니터링하는 적응형 스케줄링 알고리즘인 EPH-ASC(Efficient Piecewise Hybrid Adaptive Stability Control)를 제안합니다. 우리는 EPH-ASC가 FineWeb-Edu 데이터셋에 대한 대규모 학습 동안 매니폴드-제약 초연결(mHC)을 안정화하고 선형 안정성 법칙을 적용하여 후반기 그래디언트 폭발을 효과적으로 방지하는 데 필수적임을 입증합니다.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
PDF13March 16, 2026