ChatPaper.aiChatPaper

QeRL:効率を超えて——大規模言語モデルのための量子化強化型強化学習

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

October 13, 2025
著者: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI

要旨

我々は、大規模言語モデル(LLM)のための量子化強化型強化学習(QeRL)フレームワークを提案する。強化学習(RL)はLLMの推論能力にとって不可欠であるが、GPUメモリを大量に消費し、ロールアウト時間が長くなるというリソース集約的な課題がある。QeRLは、NVFP4量子化とLow-Rank Adaptation(LoRA)を組み合わせることでこれらの課題に対処し、RLのロールアウトフェーズを加速するとともにメモリオーバーヘッドを削減する。効率性に加え、量子化ノイズがポリシーのエントロピーを増加させ、探索を促進し、RL中により良い戦略の発見を可能にすることが明らかとなった。探索をさらに最適化するため、QeRLはAdaptive Quantization Noise(AQN)メカニズムを導入し、トレーニング中にノイズを動的に調整する。実験結果から、QeRLはロールアウトフェーズで1.5倍以上の高速化を実現することが示された。さらに、本フレームワークは、単一のH100 80GB GPU上で32B LLMのRLトレーニングを可能にする初めてのものであり、RLトレーニング全体の高速化も達成した。また、16ビットLoRAやQLoRAと比較して、より速い報酬の成長と高い最終精度を実現しつつ、7BモデルにおけるGSM8K(90.8%)やMATH 500(77.4%)などの数学的ベンチマークでは、フルパラメータのファインチューニングと同等の性能を発揮した。これらの結果は、QeRLがLLMのRLトレーニングにおいて効率的かつ効果的なフレームワークであることを示している。
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.
PDF1643October 14, 2025