Gouvernance du contrôle de l'entraînement par apprentissage par commandes électriques : entraînement autonome limité sous stress pour la stabilité et l'efficacité

Résumé

L'entraînement des modèles de langage modernes est de plus en plus exposé à l'instabilité, aux exécutions dégradées et au gaspillage de calcul, en particulier dans des conditions agressives de taux d'apprentissage, d'échelle et de stress temporel d'exécution. Cet article présente Learn-by-Wire Guard (LBW-Guard), une couche de gouvernance de contrôle d'entraînement autonome et bornée qui opère au-dessus d'AdamW. Plutôt que de remplacer la règle de mise à jour de l'optimiseur, LBW-Guard observe la télémesure de l'entraînement, interprète les régimes sensibles à l'instabilité et applique un contrôle borné à l'exécution de l'optimiseur tout en préservant les objectifs d'entraînement fixes. Nous évaluons LBW-Guard dans une suite de robustesse et de stress centrée sur Qwen2.5 à l'aide de WikiText-103, avec Qwen2.5-7B comme ancrage empirique, des comparaisons de taille de modèle avec Qwen2.5-3B et Qwen2.5-14B, des tests de stress du taux d'apprentissage, des références d'écrêtage de gradient, et une vérification de cohérence en paramètres complets sans LoRA sur TinyLlama-1B. Dans le cadre de référence 7B, LBW-Guard réduit la perplexité finale de 13,21 à 10,74, soit une amélioration de 18,7 %, tout en réduisant le temps de bout en bout de 392,54 s à 357,02 s, soit une accélération de 1,10x. Sous un stress plus fort du taux d'apprentissage, AdamW se dégrade à une perplexité finale de 1885,24 à LR=3e-3 et de 659,76 à LR=1e-3, tandis que LBW-Guard reste entraînable à 11,57 et 10,33 respectivement. Les références d'écrêtage de gradient ne reproduisent pas cet effet. Ces résultats confortent une conclusion systémique ciblée selon laquelle un entraînement des LLM sensible à la stabilité peut bénéficier d'un plan de gouvernance au-dessus de l'optimiseur. LBW-Guard apporte la preuve qu'un contrôle d'exécution borné peut préserver le calcul productif sous stress tout en restant distinct du remplacement de l'optimiseur et de la suppression locale de gradient.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.