Filtrage de Kalman Causal en Ligne pour une Optimisation de Politique Stable et Efficace
Online Causal Kalman Filtering for Stable and Effective Policy Optimization
February 11, 2026
papers.authors: Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An
cs.AI
papers.abstract
L'apprentissage par renforcement pour les grands modèles de langage souffre de ratios d'échantillonnage d'importance (IS) à haut niveau de variance au niveau des tokens, ce qui déstabiliserait l'optimisation des politiques à grande échelle. Pour améliorer la stabilité, les méthodes récentes utilisent généralement un ratio IS fixe au niveau de la séquence pour tous les tokens d'une séquence ou ajustent séparément le ratio IS de chaque token, négligeant ainsi la dérivation hors politique temporelle entre les tokens d'une séquence. Dans cet article, nous identifions d'abord empiriquement que la déviation hors politique locale est structurellement incohérente au niveau du token, ce qui peut fausser les mises à jour du gradient de politique entre les tokens adjacents et conduire à un effondrement de l'entraînement. Pour résoudre ce problème, nous proposons le Filtrage de Kalman Causal en Ligne pour une Optimisation de Politique stable et efficace (KPO). Concrètement, nous modélisons le ratio IS souhaité comme un état latent qui évolue à travers les tokens et appliquons un filtre de Kalman pour mettre à jour cet état en ligne et de manière autorégressive en fonction des états des tokens passés, indépendamment des tokens futurs. Les ratios IS filtrés qui en résultent préservent une variation locale consciente de la structure au niveau du token tout en lissant fortement les pics de bruit, produisant des mises à jour de politique plus stables et efficaces. Expérimentalement, KPO obtient des résultats supérieurs sur des ensembles de données complexes de raisonnement mathématique par rapport aux méthodes état de l'art.
English
Reinforcement learning for large language models suffers from high-variance token-level importance sampling (IS) ratios, which would destabilize policy optimization at scale. To improve stability, recent methods typically use a fixed sequence-level IS ratio for all tokens in a sequence or adjust each token's IS ratio separately, thereby neglecting temporal off-policy derivation across tokens in a sequence. In this paper, we first empirically identify that local off-policy deviation is structurally inconsistent at the token level, which may distort policy-gradient updates across adjacent tokens and lead to training collapse. To address the issue, we propose Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Concretely, we model the desired IS ratio as a latent state that evolves across tokens and apply a Kalman filter to update this state online and autoregressively based on the states of past tokens, regardless of future tokens. The resulting filtered IS ratios preserve token-wise local structure-aware variation while strongly smoothing noise spikes, yielding more stable and effective policy updates. Experimentally, KPO achieves superior results on challenging math reasoning datasets compared with state-of-the-art counterparts.