FP8-RL: Uno Stack Pratico e Stabile a Bassa Precisione per il Reinforcement Learning di LLM

Abstract

L'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM) è sempre più limitato dalla fase di rollout (generazione), in cui le lunghe sequenze di output fanno sì che l'attenzione e la memoria della KV-cache dominino il tempo totale di esecuzione di uno step. La precisione FP8 offre un'allettante leva per accelerare il RL riducendo il costo computazionale e il traffico di memoria durante il rollout. Tuttavia, l'applicazione dell'FP8 nel RL introduce sfide ingegneristiche e algoritmiche uniche: i pesi della policy cambiano a ogni step (richiedendo una quantizzazione ripetuta e una sincronizzazione dei pesi nel motore di inferenza) e i rollout a bassa precisione possono discostarsi dalla policy ad alta precisione assunta dall'addestratore, causando una discrepanza tra addestramento e inferenza e potenziale instabilità. Questo rapporto presenta uno stack di rollout FP8 pratico per il RL su LLM, implementato nell'ecosistema veRL con supporto per backend di addestramento comuni (ad es. FSDP/Megatron-LM) e motori di inferenza (ad es. vLLM/SGLang). Noi (i) abilitiamo il rollout dei layer lineari in FP8 W8A8 utilizzando la quantizzazione FP8 a blocchi, (ii) estendiamo l'FP8 alla KV-cache per rimuovere i colli di bottiglia di memoria nei contesti lunghi tramite ricalibrazione della scala QKV per step, e (iii) mitigiamo la discrepanza utilizzando una correzione del rollout basata sul campionamento per importanza (varianti a livello di token TIS/MIS). Su modelli densi e MoE, queste tecniche forniscono guadagni di throughput del rollout fino al 44%, preservando un comportamento di apprendimento paragonabile alle baseline BF16.

English

Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.

FP8-RL: Uno Stack Pratico e Stabile a Bassa Precisione per il Reinforcement Learning di LLM

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning

Abstract

Support