Lern-by-Wire-Trainingskontroll-Governance: Begrenztes autonomes Training unter Stress für Stabilität und Effizienz

Zusammenfassung

Das moderne Training von Sprachmodellen ist zunehmend Instabilität, verschlechterten Läufen und verschwendeter Rechenleistung ausgesetzt, insbesondere unter aggressiven Lernraten-, Skalierungs- und Laufzeitstressbedingungen. Dieses Paper stellt den Learn-by-Wire Guard (LBW-Guard) vor, eine begrenzte autonome Trainingskontroll-Governance-Schicht, die oberhalb von AdamW arbeitet. Anstatt die Optimierer-Update-Regel zu ersetzen, beobachtet LBW-Guard die Trainingstelemetrie, interpretiert instabilitätsempfindliche Regime und wendet eine begrenzte Kontrolle auf die Optimiererausführung an, während die festgelegten Trainingsziele beibehalten werden. Wir evaluieren LBW-Guard in einer Qwen2.5-zentrierten Stress- und Robustheits-Testsuite mit WikiText-103, wobei Qwen2.5-7B als empirischer Ankerpunkt dient, sowie Modellgrößenvergleiche mit Qwen2.5-3B und Qwen2.5-14B, Lernraten-Stresstests, Gradient-Clipping-Baselines und einen No-LoRA TinyLlama-1B Full-Parameter-Sanity-Check. In der 7B-Referenzkonfiguration reduziert LBW-Guard die endgültige Perplexität von 13,21 auf 10,74, eine Verbesserung um 18,7 %, während die End-to-End-Zeit von 392,54 s auf 357,02 s reduziert wird, was einer 1,10-fachen Beschleunigung entspricht. Unter stärkerem Lernratenstress verschlechtert sich AdamW auf eine endgültige Perplexität von 1885,24 bei LR=3e-3 und 659,76 bei LR=1e-3, während LBW-Guard mit 11,57 bzw. 10,33 trainierbar bleibt. Gradient-Clipping-Baselines reproduzieren diesen Effekt nicht. Diese Ergebnisse stützen eine begrenzte Systemschlussfolgerung, dass stabilitätsempfindliches LLM-Training von einer Governance-Ebene oberhalb des Optimierers profitieren kann. LBW-Guard liefert Belege dafür, dass eine begrenzte Laufzeitkontrolle unter Stress produktive Rechenleistung erhalten kann, während sie sich von Optimiereraustausch und lokaler Gradientenunterdrückung unterscheidet.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.