QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Reinforcement Learning für LLMs
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
papers.authors: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
papers.abstract
Wir stellen QeRL vor, ein Quantization-enhanced Reinforcement Learning Framework für große Sprachmodelle (LLMs). Obwohl Reinforcement Learning (RL) für die Fähigkeiten von LLMs im Bereich des logischen Denkens entscheidend ist, ist es ressourcenintensiv und erfordert erheblichen GPU-Speicher sowie lange Rollout-Dauern. QeRL adressiert diese Probleme durch die Kombination von NVFP4-Quantisierung mit Low-Rank Adaptation (LoRA), wodurch die Rollout-Phase von RL beschleunigt und der Speicherbedarf reduziert wird. Neben der Effizienz zeigen unsere Ergebnisse, dass Quantisierungsrauschen die Policy-Entropie erhöht, was die Exploration verbessert und die Entdeckung besserer Strategien während des RL ermöglicht. Um die Exploration weiter zu optimieren, führt QeRL einen Mechanismus für adaptives Quantisierungsrauschen (Adaptive Quantization Noise, AQN) ein, der das Rauschen während des Trainings dynamisch anpasst. Experimente zeigen, dass QeRL eine Beschleunigung der Rollout-Phase um mehr als das 1,5-fache liefert. Darüber hinaus ist dies das erste Framework, das RL-Training eines 32B LLM auf einer einzelnen H100 80GB GPU ermöglicht, während es gleichzeitig Gesamtbeschleunigungen für das RL-Training bietet. Es erreicht auch ein schnelleres Belohnungswachstum und eine höhere Endgenauigkeit als 16-Bit LoRA und QLoRA, während es die Leistung des Full-Parameter-Fine-Tunings auf mathematischen Benchmarks wie GSM8K (90,8 %) und MATH 500 (77,4 %) im 7B-Modell erreicht. Diese Ergebnisse etablieren QeRL als ein effizientes und effektives Framework für RL-Training in LLMs.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.