Governança de Controle de Treinamento Learn-by-Wire: Treinamento Autônomo Limitado sob Estresse para Estabilidade e Eficiência

Resumo

O treinamento de modelos de linguagem modernos está cada vez mais exposto a instabilidade, execuções degradadas e desperdício de computação, especialmente sob condições agressivas de taxa de aprendizado, escala e estresse de tempo de execução. Este artigo introduz o Learn-by-Wire Guard (LBW-Guard), uma camada de governança de controle de treinamento autônomo e limitada que opera acima do AdamW. Em vez de substituir a regra de atualização do otimizador, o LBW-Guard observa a telemetria do treinamento, interpreta regimes sensíveis a instabilidade e aplica controle limitado à execução do otimizador, preservando objetivos de treinamento fixos. Avaliamos o LBW-Guard em um conjunto de testes de estresse e robustez centrado no Qwen2.5 usando WikiText-103, com Qwen2.5-7B como referência empírica, comparações de tamanho de modelo com Qwen2.5-3B e Qwen2.5-14B, testes de estresse de taxa de aprendizado, linhas de base de recorte de gradiente e uma verificação de sanidade de parâmetros completos com TinyLlama-1B sem LoRA. No cenário de referência de 7B, o LBW-Guard reduz a perplexidade final de 13,21 para 10,74, uma melhoria de 18,7%, enquanto reduz o tempo de ponta a ponta de 392,54s para 357,02s, uma aceleração de 1,10x. Sob estresse mais forte de taxa de aprendizado, o AdamW degrada para perplexidade final de 1885,24 com LR=3e-3 e 659,76 com LR=1e-3, enquanto o LBW-Guard permanece treinável com 11,57 e 10,33, respectivamente. As linhas de base de recorte de gradiente não reproduzem esse efeito. Esses resultados sustentam uma conclusão de sistemas em escopo de que o treinamento de LLMs sensível à estabilidade pode se beneficiar de um plano de governança acima do otimizador. O LBW-Guard fornece evidências de que o controle limitado em tempo de execução pode preservar a computação produtiva sob estresse, mantendo-se distinto da substituição do otimizador e da supressão local de gradiente.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.