ChatPaper.aiChatPaper

Evitando el Colapso Prematuro: Temple Adaptativo para la Inferencia Estructural con Regularización de Entropía

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

January 30, 2026
Autores: Yizhi Liu
cs.AI

Resumen

Las capas de emparejamiento diferenciables y los paradigmas de conexión residual, implementados frecuentemente mediante Transporte Óptimo (TO) regularizado por entropía, funcionan como mecanismos críticos en la predicción estructural y el escalado arquitectónico. Sin embargo, la recuperación de permutaciones discretas o el mantenimiento de mapeos de identidad mediante el enfriamiento de ε a 0 son notoriamente inestables. En este trabajo, identificamos un mecanismo fundamental para este fallo: el Colapso Prematuro de Modos. Al analizar la dinámica no normal del mapa de punto fijo de Sinkhorn, revelamos un límite de velocidad termodinámico teórico: el enfriamiento exponencial estándar supera la tasa de contracción del operador de inferencia, que se degrada como O(1/ε). Para abordar esto, proponemos el Control de Estabilidad Adaptativo Híbrido por Partes Eficiente (EPH-ASC, por sus siglas en inglés), un algoritmo de planificación adaptativa que monitorea la estabilidad del proceso de inferencia. Demostramos que EPH-ASC es esencial para estabilizar las Conexiones Hiper-Restringidas en Variedades (mHC) durante el entrenamiento a gran escala en el conjunto de datos FineWeb-Edu, previniendo efectivamente explosiones de gradiente en etapas tardías mediante la imposición de una ley de estabilidad lineal.
English
Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing εto 0 is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: Premature Mode Collapse. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as O(1/ε). To address this, we propose Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC), an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
PDF13March 16, 2026