QeRL: За пределами эффективности — обучение с подкреплением с улучшенной квантованием для больших языковых моделей
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
Авторы: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
Аннотация
Мы представляем QeRL — фреймворк для обучения с подкреплением (Reinforcement Learning, RL) с использованием квантования, предназначенный для крупных языковых моделей (LLM). Хотя RL критически важен для развития способностей LLM к рассуждению, он требует значительных ресурсов, включая большой объем памяти GPU и длительные этапы rollout. QeRL решает эти проблемы, сочетая квантование NVFP4 с адаптацией низкого ранга (Low-Rank Adaptation, LoRA), что ускоряет этап rollout в RL и снижает нагрузку на память. Помимо повышения эффективности, наши исследования показывают, что шум квантования увеличивает энтропию политики, улучшая исследование и способствуя обнаружению более эффективных стратегий в процессе RL. Для дальнейшей оптимизации исследования QeRL вводит механизм адаптивного шума квантования (Adaptive Quantization Noise, AQN), который динамически регулирует уровень шума во время обучения. Эксперименты демонстрируют, что QeRL обеспечивает ускорение этапа rollout более чем в 1,5 раза. Более того, это первый фреймворк, который позволяет проводить RL-обучение модели LLM с 32 миллиардами параметров на одном GPU H100 с 80 ГБ памяти, обеспечивая общее ускорение RL-обучения. Он также достигает более быстрого роста наград и более высокой итоговой точности по сравнению с 16-битными LoRA и QLoRA, при этом соответствуя производительности полной тонкой настройки на математических бенчмарках, таких как GSM8K (90,8%) и MATH 500 (77,4%) для модели с 7 миллиардами параметров. Эти результаты подтверждают, что QeRL является эффективным и производительным фреймворком для RL-обучения в LLM.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.