QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Reinforcement Learning für LLMs

papers.abstract

Wir stellen QeRL vor, ein Quantization-enhanced Reinforcement Learning Framework für große Sprachmodelle (LLMs). Obwohl Reinforcement Learning (RL) für die Fähigkeiten von LLMs im Bereich des logischen Denkens entscheidend ist, ist es ressourcenintensiv und erfordert erheblichen GPU-Speicher sowie lange Rollout-Dauern. QeRL adressiert diese Probleme durch die Kombination von NVFP4-Quantisierung mit Low-Rank Adaptation (LoRA), wodurch die Rollout-Phase von RL beschleunigt und der Speicherbedarf reduziert wird. Neben der Effizienz zeigen unsere Ergebnisse, dass Quantisierungsrauschen die Policy-Entropie erhöht, was die Exploration verbessert und die Entdeckung besserer Strategien während des RL ermöglicht. Um die Exploration weiter zu optimieren, führt QeRL einen Mechanismus für adaptives Quantisierungsrauschen (Adaptive Quantization Noise, AQN) ein, der das Rauschen während des Trainings dynamisch anpasst. Experimente zeigen, dass QeRL eine Beschleunigung der Rollout-Phase um mehr als das 1,5-fache liefert. Darüber hinaus ist dies das erste Framework, das RL-Training eines 32B LLM auf einer einzelnen H100 80GB GPU ermöglicht, während es gleichzeitig Gesamtbeschleunigungen für das RL-Training bietet. Es erreicht auch ein schnelleres Belohnungswachstum und eine höhere Endgenauigkeit als 16-Bit LoRA und QLoRA, während es die Leistung des Full-Parameter-Fine-Tunings auf mathematischen Benchmarks wie GSM8K (90,8 %) und MATH 500 (77,4 %) im 7B-Modell erreicht. Diese Ergebnisse etablieren QeRL als ein effizientes und effektives Framework für RL-Training in LLMs.

English

We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.

QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Reinforcement Learning für LLMs

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

papers.abstract

Support