QeRL : Au-delà de l'efficacité - Apprentissage par renforcement amélioré par la quantification pour les modèles de langage de grande taille
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
October 13, 2025
papers.authors: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
cs.AI
papers.abstract
Nous proposons QeRL, un cadre d'apprentissage par renforcement (Reinforcement Learning, RL) optimisé par quantification pour les grands modèles de langage (Large Language Models, LLMs). Bien que le RL soit essentiel pour les capacités de raisonnement des LLMs, il est gourmand en ressources, nécessitant une mémoire GPU importante et des durées de déploiement longues. QeRL résout ces problèmes en combinant la quantification NVFP4 avec l'adaptation de bas rang (Low-Rank Adaptation, LoRA), accélérant ainsi la phase de déploiement du RL tout en réduisant la surcharge mémoire. Au-delà de l'efficacité, nos résultats montrent que le bruit de quantification augmente l'entropie de la politique, améliorant l'exploration et permettant la découverte de meilleures stratégies pendant le RL. Pour optimiser davantage l'exploration, QeRL introduit un mécanisme de bruit de quantification adaptatif (Adaptive Quantization Noise, AQN), qui ajuste dynamiquement le bruit pendant l'entraînement. Les expériences démontrent que QeRL offre une accélération de plus de 1,5 fois lors de la phase de déploiement. De plus, il s'agit du premier cadre à permettre l'entraînement par RL d'un LLM de 32B sur un seul GPU H100 80GB, tout en offrant des accélérations globales pour l'entraînement RL. Il atteint également une croissance plus rapide des récompenses et une précision finale plus élevée que LoRA 16 bits et QLoRA, tout en égalant les performances du réglage fin avec tous les paramètres sur des benchmarks mathématiques tels que GSM8K (90,8 %) et MATH 500 (77,4 %) pour le modèle 7B. Ces résultats établissent QeRL comme un cadre efficace et efficient pour l'entraînement par RL dans les LLMs.
English
We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for
large language models (LLMs). While RL is essential for LLMs' reasoning
capabilities, it is resource-intensive, requiring substantial GPU memory and
long rollout durations. QeRL addresses these issues by combining NVFP4
quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL
while reducing memory overhead. Beyond efficiency, our findings show that
quantization noise increases policy entropy, enhancing exploration, and
enabling the discovery of better strategies during RL. To further optimize
exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism,
which dynamically adjusts noise during training. Experiments demonstrate that
QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is
the first framework to enable RL training of a 32B LLM on a single H100 80GB
GPU, while delivering overall speedups for RL training. It also achieves faster
reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while
matching the performance of full-parameter fine-tuning on mathematical
benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These
results establish QeRL as an efficient and effective framework for RL training
in LLMs.