Leer-by-wire trainingsregelgovernance: Begrensde autonome training onder stress voor stabiliteit en efficiëntie

Samenvatting

Moderne training van taalmodellen wordt steeds vaker blootgesteld aan instabiliteit, gedegradeerde runs en verspilde rekenkracht, vooral onder agressieve leercurven, schaal- en runtime-stresscondities. Dit artikel introduceert Learn-by-Wire Guard (LBW-Guard), een begrensde, autonome besturingslaag voor trainingsbeheer die bovenop AdamW werkt. In plaats van de optimizer-updateregel te vervangen, observeert LBW-Guard trainingstelemetrie, interpreteert het instabiliteitsgevoelige regimes en past het begrensde controle toe op de uitvoering van de optimizer, terwijl vaste trainingsdoelstellingen behouden blijven. We evalueren LBW-Guard in een op Qwen2.5 gerichte stress- en robuustheidssuite met WikiText-103, met Qwen2.5-7B als empirisch anker, modelgroottevergelijkingen met Qwen2.5-3B en Qwen2.5-14B, leersnelheid-stresstests, gradient-clipping-baselines en een no-LoRA TinyLlama-1B full-parameter sanity check. In de 7B-referentie-instelling vermindert LBW-Guard de uiteindelijke perplexiteit van 13,21 naar 10,74, een verbetering van 18,7%, terwijl de end-to-end-tijd wordt verminderd van 392,54 s naar 357,02 s, een versnelling van 1,10x. Onder sterkere leersnelheid-stress degradeert AdamW naar een uiteindelijke perplexiteit van 1885,24 bij LR=3e-3 en 659,76 bij LR=1e-3, terwijl LBW-Guard trainbaar blijft met respectievelijk 11,57 en 10,33. Gradient-clipping-baselines reproduceren dit effect niet. Deze resultaten ondersteunen een afgebakende systeemconclusie dat stabiliteitsgevoelige LLM-training kan profiteren van een besturingslaag boven de optimizer. LBW-Guard levert bewijs dat begrensde runtime-controle productieve rekenkracht kan behouden onder stress, terwijl het zich onderscheidt van vervanging van de optimizer en lokale gradientonderdrukking.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.