QeRL: За пределами эффективности — обучение с подкреплением с улучшенной квантованием для больших языковых моделей

Аннотация

Мы представляем QeRL — фреймворк для обучения с подкреплением (Reinforcement Learning, RL) с использованием квантования, предназначенный для крупных языковых моделей (LLM). Хотя RL критически важен для развития способностей LLM к рассуждению, он требует значительных ресурсов, включая большой объем памяти GPU и длительные этапы rollout. QeRL решает эти проблемы, сочетая квантование NVFP4 с адаптацией низкого ранга (Low-Rank Adaptation, LoRA), что ускоряет этап rollout в RL и снижает нагрузку на память. Помимо повышения эффективности, наши исследования показывают, что шум квантования увеличивает энтропию политики, улучшая исследование и способствуя обнаружению более эффективных стратегий в процессе RL. Для дальнейшей оптимизации исследования QeRL вводит механизм адаптивного шума квантования (Adaptive Quantization Noise, AQN), который динамически регулирует уровень шума во время обучения. Эксперименты демонстрируют, что QeRL обеспечивает ускорение этапа rollout более чем в 1,5 раза. Более того, это первый фреймворк, который позволяет проводить RL-обучение модели LLM с 32 миллиардами параметров на одном GPU H100 с 80 ГБ памяти, обеспечивая общее ускорение RL-обучения. Он также достигает более быстрого роста наград и более высокой итоговой точности по сравнению с 16-битными LoRA и QLoRA, при этом соответствуя производительности полной тонкой настройки на математических бенчмарках, таких как GSM8K (90,8%) и MATH 500 (77,4%) для модели с 7 миллиардами параметров. Эти результаты подтверждают, что QeRL является эффективным и производительным фреймворком для RL-обучения в LLM.

English

We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.

QeRL: За пределами эффективности — обучение с подкреплением с улучшенной квантованием для больших языковых моделей

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Аннотация

Support