QeRL: 효율성의 경계를 넘어서 - 대규모 언어 모델을 위한 양자화 강화 강화 학습
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
저자: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
초록
우리는 대규모 언어 모델(LLM)을 위한 양자화 강화 강화 학습(QeRL) 프레임워크를 제안한다. 강화 학습(RL)은 LLM의 추론 능력에 필수적이지만, 상당한 GPU 메모리와 긴 롤아웃 시간을 요구하는 자원 집약적인 과정이다. QeRL은 NVFP4 양자화와 Low-Rank Adaptation(LoRA)을 결합하여 RL의 롤아웃 단계를 가속화하고 메모리 오버헤드를 줄이는 방식으로 이러한 문제를 해결한다. 효율성 외에도, 우리의 연구 결과는 양자화 노이즈가 정책 엔트로피를 증가시켜 탐색을 강화하고 RL 과정에서 더 나은 전략을 발견할 수 있게 한다는 것을 보여준다. 탐색을 더욱 최적화하기 위해 QeRL은 훈련 중에 노이즈를 동적으로 조절하는 적응형 양자화 노이즈(AQN) 메커니즘을 도입한다. 실험 결과, QeRL은 롤아웃 단계에서 1.5배 이상의 속도 향상을 달성한다. 또한, 이는 단일 H100 80GB GPU에서 32B LLM의 RL 훈련을 가능하게 한 최초의 프레임워크이며, RL 훈련 전반에 걸쳐 속도 향상을 제공한다. 또한, 16비트 LoRA 및 QLoRA보다 더 빠른 보상 증가와 더 높은 최종 정확도를 달성하면서, 7B 모델에서 GSM8K(90.8%) 및 MATH 500(77.4%)과 같은 수학 벤치마크에서 전체 파라미터 미세 조정의 성능을 유지한다. 이러한 결과는 QeRL이 LLM의 RL 훈련을 위한 효율적이고 효과적인 프레임워크임을 입증한다.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.