QeRL: Voorbij Efficiëntie -- Kwantisatie-versterkt Reinforcement Learning voor LLM's

Samenvatting

We stellen QeRL voor, een Quantization-enhanced Reinforcement Learning-framework voor grote taalmodellen (LLMs). Hoewel RL essentieel is voor de redeneervaardigheden van LLMs, is het resource-intensief en vereist het aanzienlijk GPU-geheugen en lange rollout-duur. QeRL lost deze problemen op door NVFP4-kwantisatie te combineren met Low-Rank Adaptation (LoRA), waardoor de rollout-fase van RL wordt versneld en de geheugenoverhead wordt verminderd. Naast efficiëntie tonen onze bevindingen aan dat kwantisatieruis de beleidsentropie verhoogt, wat de exploratie verbetert en het mogelijk maakt om betere strategieën te ontdekken tijdens RL. Om de exploratie verder te optimaliseren, introduceert QeRL een Adaptief Kwantisatieruis (AQN)-mechanisme, dat het ruis dynamisch aanpast tijdens de training. Experimenten tonen aan dat QeRL een versnelling van meer dan 1,5 keer oplevert in de rollout-fase. Bovendien is dit het eerste framework dat RL-training van een 32B LLM op een enkele H100 80GB GPU mogelijk maakt, terwijl het algemene versnellingen biedt voor RL-training. Het bereikt ook een snellere beloningsgroei en een hogere eindnauwkeurigheid dan 16-bit LoRA en QLoRA, terwijl het de prestaties evenaart van volledige-parameter fine-tuning op wiskundige benchmarks zoals GSM8K (90,8%) en MATH 500 (77,4%) in het 7B-model. Deze resultaten vestigen QeRL als een efficiënt en effectief framework voor RL-training in LLMs.

English

We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.

QeRL: Voorbij Efficiëntie -- Kwantisatie-versterkt Reinforcement Learning voor LLM's

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Samenvatting

Support