QeRL: Voorbij Efficiëntie -- Kwantisatie-versterkt Reinforcement Learning voor LLM's
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
Auteurs: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
Samenvatting
We stellen QeRL voor, een Quantization-enhanced Reinforcement Learning-framework voor grote taalmodellen (LLMs). Hoewel RL essentieel is voor de redeneervaardigheden van LLMs, is het resource-intensief en vereist het aanzienlijk GPU-geheugen en lange rollout-duur. QeRL lost deze problemen op door NVFP4-kwantisatie te combineren met Low-Rank Adaptation (LoRA), waardoor de rollout-fase van RL wordt versneld en de geheugenoverhead wordt verminderd. Naast efficiëntie tonen onze bevindingen aan dat kwantisatieruis de beleidsentropie verhoogt, wat de exploratie verbetert en het mogelijk maakt om betere strategieën te ontdekken tijdens RL. Om de exploratie verder te optimaliseren, introduceert QeRL een Adaptief Kwantisatieruis (AQN)-mechanisme, dat het ruis dynamisch aanpast tijdens de training. Experimenten tonen aan dat QeRL een versnelling van meer dan 1,5 keer oplevert in de rollout-fase. Bovendien is dit het eerste framework dat RL-training van een 32B LLM op een enkele H100 80GB GPU mogelijk maakt, terwijl het algemene versnellingen biedt voor RL-training. Het bereikt ook een snellere beloningsgroei en een hogere eindnauwkeurigheid dan 16-bit LoRA en QLoRA, terwijl het de prestaties evenaart van volledige-parameter fine-tuning op wiskundige benchmarks zoals GSM8K (90,8%) en MATH 500 (77,4%) in het 7B-model. Deze resultaten vestigen QeRL als een efficiënt en effectief framework voor RL-training in LLMs.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.