QeRL:効率を超えて——大規模言語モデルのための量子化強化型強化学習
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
著者: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
要旨
我々は、大規模言語モデル(LLM)のための量子化強化型強化学習(QeRL)フレームワークを提案する。強化学習(RL)はLLMの推論能力にとって不可欠であるが、GPUメモリを大量に消費し、ロールアウト時間が長くなるというリソース集約的な課題がある。QeRLは、NVFP4量子化とLow-Rank Adaptation(LoRA)を組み合わせることでこれらの課題に対処し、RLのロールアウトフェーズを加速するとともにメモリオーバーヘッドを削減する。効率性に加え、量子化ノイズがポリシーのエントロピーを増加させ、探索を促進し、RL中により良い戦略の発見を可能にすることが明らかとなった。探索をさらに最適化するため、QeRLはAdaptive Quantization Noise(AQN)メカニズムを導入し、トレーニング中にノイズを動的に調整する。実験結果から、QeRLはロールアウトフェーズで1.5倍以上の高速化を実現することが示された。さらに、本フレームワークは、単一のH100 80GB GPU上で32B LLMのRLトレーニングを可能にする初めてのものであり、RLトレーニング全体の高速化も達成した。また、16ビットLoRAやQLoRAと比較して、より速い報酬の成長と高い最終精度を実現しつつ、7BモデルにおけるGSM8K(90.8%)やMATH 500(77.4%)などの数学的ベンチマークでは、フルパラメータのファインチューニングと同等の性能を発揮した。これらの結果は、QeRLがLLMのRLトレーニングにおいて効率的かつ効果的なフレームワークであることを示している。
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.