Обучение с электронным управлением: ограниченное автономное обучение в условиях нагрузки для стабильности и эффективности

Аннотация

Современное обучение языковых моделей все чаще сталкивается с нестабильностью, деградацией качества и нерациональным расходованием вычислительных ресурсов, особенно в условиях агрессивных темпа обучения (learning rate), масштаба и нагрузок на время выполнения. В данной статье представлен Learn-by-Wire Guard (LBW-Guard) — ограниченный автономный слой управления обучением, работающий поверх AdamW. LBW-Guard не заменяет правило обновления оптимизатора, а наблюдает за телеметрией обучения, выявляет режимы, чувствительные к нестабильности, и применяет ограниченное управление выполнением оптимизатора, сохраняя при этом фиксированные цели обучения. Мы оцениваем LBW-Guard в стрессовом и робастном наборе тестов на базе Qwen2.5 с использованием WikiText-103, где Qwen2.5-7B служит эмпирическим эталоном, выполняются сравнения по размеру модели с Qwen2.5-3B и Qwen2.5-14B, стресс-тесты темпа обучения, тесты с клиппированием градиентов, а также полнопараметрическая проверка работоспособности на TinyLlama-1B без LoRA. В эталонной конфигурации с моделью 7B LBW-Guard снижает финальную перплексию с 13,21 до 10,74, что представляет собой улучшение на 18,7%, при этом общее время сокращается с 392,54 с до 357,02 с, т.е. ускорение в 1,10 раза. При более сильных стрессовых нагрузках на темп обучения AdamW деградирует до финальной перплексии 1885,24 при LR=3e-3 и 659,76 при LR=1e-3, тогда как LBW-Guard остается обучаемым с показателями 11,57 и 10,33 соответственно. Базовые методы клиппирования градиентов не воспроизводят этот эффект. Эти результаты подтверждают ограниченный системный вывод: обучение LLM, чувствительное к стабильности, может выиграть от наличия управляющего слоя над оптимизатором. LBW-Guard демонстрирует, что ограниченное управление во время выполнения может сохранять продуктивное использование вычислительных ресурсов в условиях стресса, оставаясь при этом отличным от замены оптимизатора и локального подавления градиентов.

English

Modern language-model training is increasingly exposed to instability, degraded runs, and wasted compute, especially under aggressive learning-rate, scale, and runtime-stress conditions. This paper introduces Learn-by-Wire Guard (LBW-Guard), a bounded autonomous training-control governance layer that operates above AdamW. Rather than replacing the optimizer update rule, LBW-Guard observes training telemetry, interprets instability-sensitive regimes, and applies bounded control to optimizer execution while preserving fixed training objectives. We evaluate LBW-Guard in a Qwen2.5-centered stress-and-robustness suite using WikiText-103, with Qwen2.5-7B as the empirical anchor, model-size comparisons against Qwen2.5-3B and Qwen2.5-14B, learning-rate stress tests, gradient-clipping baselines, and a no-LoRA TinyLlama-1B full-parameter sanity check. In the 7B reference setting, LBW-Guard reduces final perplexity from 13.21 to 10.74, an 18.7% improvement, while reducing end-to-end time from 392.54s to 357.02s, a 1.10x speedup. Under stronger learning-rate stress, AdamW degrades to 1885.24 final perplexity at LR=3e-3 and 659.76 at LR=1e-3, whereas LBW-Guard remains trainable at 11.57 and 10.33, respectively. Gradient-clipping baselines do not reproduce this effect. These results support a scoped systems conclusion that stability-sensitive LLM training can benefit from a governance plane above the optimizer. LBW-Guard provides evidence that bounded runtime control can preserve productive compute under stress while remaining distinct from optimizer replacement and local gradient suppression.