QeRL: Além da Eficiência -- Aprendizado por Reforço Aprimorado por Quantização para LLMs
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
Autores: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
Resumo
Propomos o QeRL, um framework de Aprendizado por Reforço Aprimorado por Quantização (Quantization-enhanced Reinforcement Learning) para modelos de linguagem de grande escala (LLMs). Embora o Aprendizado por Reforço (RL) seja essencial para as capacidades de raciocínio dos LLMs, ele é intensivo em recursos, exigindo uma quantidade substancial de memória GPU e longas durações de execução. O QeRL aborda esses problemas ao combinar a quantização NVFP4 com a Adaptação de Baixa Ordem (LoRA), acelerando a fase de execução do RL enquanto reduz a sobrecarga de memória. Além da eficiência, nossos resultados mostram que o ruído de quantização aumenta a entropia da política, melhorando a exploração e permitindo a descoberta de estratégias melhores durante o RL. Para otimizar ainda mais a exploração, o QeRL introduz um mecanismo de Ruído de Quantização Adaptativo (AQN), que ajusta dinamicamente o ruído durante o treinamento. Experimentos demonstram que o QeRL proporciona uma aceleração de mais de 1,5 vezes na fase de execução. Além disso, este é o primeiro framework a permitir o treinamento de RL de um LLM de 32B em uma única GPU H100 80GB, ao mesmo tempo que oferece acelerações gerais para o treinamento de RL. Ele também alcança um crescimento mais rápido de recompensas e uma precisão final maior do que o LoRA de 16 bits e o QLoRA, enquanto iguala o desempenho do ajuste fino de parâmetros completos em benchmarks matemáticos como GSM8K (90,8%) e MATH 500 (77,4%) no modelo de 7B. Esses resultados estabelecem o QeRL como um framework eficiente e eficaz para o treinamento de RL em LLMs.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.