QeRL : Au-delà de l'efficacité - Apprentissage par renforcement amélioré par la quantification pour les modèles de langage de grande taille

papers.abstract

Nous proposons QeRL, un cadre d'apprentissage par renforcement (Reinforcement Learning, RL) optimisé par quantification pour les grands modèles de langage (Large Language Models, LLMs). Bien que le RL soit essentiel pour les capacités de raisonnement des LLMs, il est gourmand en ressources, nécessitant une mémoire GPU importante et des durées de déploiement longues. QeRL résout ces problèmes en combinant la quantification NVFP4 avec l'adaptation de bas rang (Low-Rank Adaptation, LoRA), accélérant ainsi la phase de déploiement du RL tout en réduisant la surcharge mémoire. Au-delà de l'efficacité, nos résultats montrent que le bruit de quantification augmente l'entropie de la politique, améliorant l'exploration et permettant la découverte de meilleures stratégies pendant le RL. Pour optimiser davantage l'exploration, QeRL introduit un mécanisme de bruit de quantification adaptatif (Adaptive Quantization Noise, AQN), qui ajuste dynamiquement le bruit pendant l'entraînement. Les expériences démontrent que QeRL offre une accélération de plus de 1,5 fois lors de la phase de déploiement. De plus, il s'agit du premier cadre à permettre l'entraînement par RL d'un LLM de 32B sur un seul GPU H100 80GB, tout en offrant des accélérations globales pour l'entraînement RL. Il atteint également une croissance plus rapide des récompenses et une précision finale plus élevée que LoRA 16 bits et QLoRA, tout en égalant les performances du réglage fin avec tous les paramètres sur des benchmarks mathématiques tels que GSM8K (90,8 %) et MATH 500 (77,4 %) pour le modèle 7B. Ces résultats établissent QeRL comme un cadre efficace et efficient pour l'entraînement par RL dans les LLMs.

English

We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.

QeRL : Au-delà de l'efficacité - Apprentissage par renforcement amélioré par la quantification pour les modèles de langage de grande taille

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

papers.abstract

Support