FP8-RL : Une pile de précision réduite pratique et stable pour l'apprentissage par renforcement des grands modèles de langage
FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
January 26, 2026
papers.authors: Zhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM) est de plus en plus limité par l'étape de déploiement (génération), où la longueur des séquences de sortie fait dominer le temps d'étape end-to-end par le mécanisme d'attention et la mémoire cache KV. Le format FP8 offre un levier intéressant pour accélérer le RL en réduisant le coût computationnel et le trafic mémoire pendant le déploiement. Cependant, son application au RL introduit des défis techniques et algorithmiques spécifiques : les poids de la politique changent à chaque étape (nécessitant une quantification répétée et une synchronisation des poids dans le moteur d'inférence) et les déploiements en faible précision peuvent s'écarter de la politique en haute précision supposée par l'entraîneur, causant un décalage entraînement-inférence et une instabilité potentielle. Ce rapport présente une pile de déploiement FP8 pratique pour le RL des LLM, implémentée dans l'écosystème veRL avec prise en charge des backends d'entraînement courants (par ex., FSDP/Megatron-LM) et des moteurs d'inférence (par ex., vLLM/SGLang). Nous (i) permettons le déploiement en FP8 W8A8 pour les couches linéaires en utilisant une quantification FP8 par blocs, (ii) étendons le FP8 au cache KV pour supprimer les goulots d'étranglement mémoire des longs contextes via un recalibrage des échelles QKV par étape, et (iii) atténuons le décalage en utilisant une correction de déploiement basée sur l'échantillonnage préférentiel (variantes TIS/MIS au niveau du token). Sur des modèles denses et Mixture of Experts (MoE), ces techniques permettent des gains de débit de déploiement allant jusqu'à 44 % tout en préservant un comportement d'apprentissage comparable à des lignes de base en BF16.
English
Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.