ChatPaper.aiChatPaper

Evitando o Colapso Prematuro: Recozimento Adaptativo para Inferência Estrutural com Regularização de Entropia

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

January 30, 2026
Autores: Yizhi Liu
cs.AI

Resumo

Camadas diferenciáveis de correspondência e paradigmas de conexão residual, frequentemente implementados via Transporte Ótimo (TO) com regularização de entropia, servem como mecanismos críticos em previsão estrutural e escalonamento arquitetural. No entanto, a recuperação de permutações discretas ou a manutenção de mapeamentos de identidade através do resfriamento de ε para 0 é notoriamente instável. Neste trabalho, identificamos um mecanismo fundamental para essa falha: o Colapso Prematuro de Modos. Ao analisar a dinâmica não normal do mapa de ponto fixo de Sinkhorn, revelamos um limite teórico de velocidade termodinâmica: o resfriamento exponencial padrão supera a taxa de contração do operador de inferência, que se degrada como O(1/ε). Para enfrentar isso, propomos o Controle Adaptativo de Estabilidade Híbrido por Partes Eficiente (EPH-ASC), um algoritmo de escalonamento adaptativo que monitora a estabilidade do processo de inferência. Demonstramos que o EPH-ASC é essencial para estabilizar Conexões Hiper-Restritas a Varietyades (mHC) durante o treinamento em larga escala no conjunto de dados FineWeb-Edu, prevenindo efetivamente explosões de gradiente em estágios avançados através da imposição de uma lei de estabilidade linear.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
PDF13March 31, 2026