FP8-RL: Een praktische en stabiele low-precision-stack voor reinforcement learning van grote taalmodellen
FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
January 26, 2026
Auteurs: Zhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai
cs.AI
Samenvatting
Versterkend leren (RL) voor grote-taalmodelmodellen (LLM's) wordt in toenemende mate beperkt door de rollout (generatie), waarbij lange uitvoersequenties ervoor zorgen dat aandacht en KV-cache-geheugen de end-to-end verwerkingstijd domineren. FP8 biedt een aantrekkelijke hefboom om RL te versnellen door rekencosten en geheugenverkeer tijdens de rollout te verminderen, maar de toepassing van FP8 in RL brengt unieke technische en algoritmische uitdagingen met zich mee: de beleidsgewichten (policy weights) veranderen elke stap (wat herhaalde kwantisatie en gewichtssynchronisatie in de inferentie-engine vereist) en rollouts met lage precisie kunnen afwijken van het door de trainer veronderstelde beleid met hogere precisie, wat leidt tot een mismatch tussen training en inferentie en mogelijke instabiliteit. Dit rapport presenteert een praktische FP8-rolloutstack voor LLM-RL, geïmplementeerd in het veRL-ecosysteem met ondersteuning voor veelgebruikte trainingsbackends (zoals FSDP/Megatron-LM) en inferentie-engines (zoals vLLM/SGLang). Wij (i) maken FP8 W8A8 rollout voor lineaire lagen mogelijk door gebruik te maken van blokgewijze FP8-kwantisatie, (ii) breiden FP8 uit naar de KV-cache om geheugenknelpunten bij lange contexten te verwijderen via per-stap herkalibratie van QKV-schalen, en (iii) verminderen mismatch door gebruik te maken van rollout-correctie op basis van importance sampling (token-level TIS/MIS varianten). Voor zowel dense als MoE-modellen leveren deze technieken tot 44% hogere rollout-doorvoer op, terwijl het leerproces vergelijkbaar blijft met BF16-basislijnen.
English
Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.