Gobernanza del Control de Entrenamiento de Aprendizaje por Cable: Entrenamiento Autónomo Acotado bajo Estrés para Estabilidad y Eficiencia

Resumen

El entrenamiento de modelos de lenguaje modernos está cada vez más expuesto a inestabilidad, ejecuciones degradadas y cómputo desperdiciado, especialmente bajo condiciones agresivas de tasa de aprendizaje, escala y estrés en tiempo de ejecución. Este artículo presenta Learn-by-Wire Guard (LBW-Guard), una capa de gobernanza de control de entrenamiento autónomo acotado que opera por encima de AdamW. En lugar de reemplazar la regla de actualización del optimizador, LBW-Guard observa la telemetría del entrenamiento, interpreta regímenes sensibles a la inestabilidad y aplica control acotado a la ejecución del optimizador, preservando al mismo tiempo los objetivos fijos de entrenamiento. Evaluamos LBW-Guard en un conjunto de pruebas de estrés y robustez centrado en Qwen2.5 utilizando WikiText-103, con Qwen2.5-7B como ancla empírica, comparaciones de tamaño de modelo frente a Qwen2.5-3B y Qwen2.5-14B, pruebas de estrés de tasa de aprendizaje, líneas base de recorte de gradientes y una verificación de cordura de parámetros completos sin LoRA con TinyLlama-1B. En la configuración de referencia de 7B, LBW-Guard reduce la perplejidad final de 13.21 a 10.74, una mejora del 18.7%, y reduce el tiempo total de 392.54s a 357.02s, una aceleración de 1.10x. Bajo un estrés de tasa de aprendizaje más fuerte, AdamW se degrada a una perplejidad final de 1885.24 con LR=3e-3 y 659.76 con LR=1e-3, mientras que LBW-Guard sigue siendo entrenable con 11.57 y 10.33, respectivamente. Las líneas base de recorte de gradientes no reproducen este efecto. Estos resultados respaldan una conclusión sistémica acotada: el entrenamiento de LLM sensible a la estabilidad puede beneficiarse de un plano de gobernanza por encima del optimizador. LBW-Guard proporciona evidencia de que un control acotado en tiempo de ejecución puede preservar el cómputo productivo bajo estrés, manteniéndose distinto del reemplazo del optimizador y de la supresión local de gradientes.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.