FP8-RL: Ein praktischer und stabiler Low-Precision-Stack für Reinforcement Learning mit großen Sprachmodellen
FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
January 26, 2026
papers.authors: Zhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai
cs.AI
papers.abstract
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) wird zunehmend durch den Rollout (Generierung) zum Engpass, wobei lange Ausgabesequenzlängen dazu führen, dass Attention und KV-Cache-Speicher die End-to-End-Schrittzeit dominieren. FP8 bietet einen attraktiven Hebel zur Beschleunigung von RL, indem Rechenkosten und Speicherdatenverkehr während des Rollouts reduziert werden. Die Anwendung von FP8 in RL bringt jedoch einzigartige technische und algorithmische Herausforderungen mit sich: Die Policy-Gewichte ändern sich in jedem Schritt (was eine wiederholte Quantisierung und Gewichtssynchronisation in die Inferenz-Engine erfordert), und Rollouts mit niedriger Präzision können von der höherpräzisen Policy abweichen, die der Trainer annimmt, was zu einer Trainings-Inferenz-Diskrepanz und potenzieller Instabilität führt. Dieser Bericht stellt einen praktischen FP8-Rollout-Stack für LLM-RL vor, implementiert im veRL-Ökosystem mit Unterstützung für gängige Trainings-Backends (z.B. FSDP/Megatron-LM) und Inferenz-Engines (z.B. vLLM/SGLang). Wir (i) ermöglichen FP8-W8A8-Rollout für Lineare Schichten durch blockweise FP8-Quantisierung, (ii) erweitern FP8 auf die KV-Cache, um Speicherengpässe bei langen Kontexten durch eine schrittweise Neukalibrierung der QKV-Skalen zu beseitigen, und (iii) mildern die Diskrepanz durch einen auf Importance Sampling basierenden Rollout-Korrekturmechanismus (Token-Level-Varianten TIS/MIS). Bei dichten und MoE-Modellen erzielen diese Techniken Steigerungen der Rollout-Durchsatzrate von bis zu 44 %, bei gleichzeitiger Beibehaltung eines mit BF16-Baselines vergleichbaren Lernverhaltens.
English
Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.