QeRL: Más allá de la eficiencia -- Aprendizaje por refuerzo mejorado con cuantización para modelos de lenguaje grandes
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
Autores: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
Resumen
Proponemos QeRL, un marco de Aprendizaje por Refuerzo Mejorado con Cuantización para modelos de lenguaje grandes (LLMs). Si bien el Aprendizaje por Refuerzo (RL) es esencial para las capacidades de razonamiento de los LLMs, es intensivo en recursos, requiriendo una memoria GPU sustancial y largas duraciones de ejecución. QeRL aborda estos problemas combinando la cuantización NVFP4 con la Adaptación de Bajo Rango (LoRA), acelerando la fase de ejecución del RL mientras reduce la sobrecarga de memoria. Más allá de la eficiencia, nuestros hallazgos muestran que el ruido de cuantización aumenta la entropía de la política, mejorando la exploración y permitiendo el descubrimiento de mejores estrategias durante el RL. Para optimizar aún más la exploración, QeRL introduce un mecanismo de Ruido de Cuantización Adaptativo (AQN), que ajusta dinámicamente el ruido durante el entrenamiento. Los experimentos demuestran que QeRL ofrece una aceleración de más de 1.5 veces en la fase de ejecución. Además, este es el primer marco que permite el entrenamiento de RL de un LLM de 32B en una sola GPU H100 de 80GB, mientras ofrece aceleraciones generales para el entrenamiento de RL. También logra un crecimiento más rápido de la recompensa y una precisión final más alta que LoRA de 16 bits y QLoRA, igualando el rendimiento del ajuste fino de parámetros completos en benchmarks matemáticos como GSM8K (90.8%) y MATH 500 (77.4%) en el modelo de 7B. Estos resultados establecen a QeRL como un marco eficiente y efectivo para el entrenamiento de RL en LLMs.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.