Online-Kausale-Kalman-Filterung für stabile und effektive Politikoptimierung
Online Causal Kalman Filtering for Stable and Effective Policy Optimization
February 11, 2026
papers.authors: Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An
cs.AI
papers.abstract
Reinforcement Learning für große Sprachmodelle leidet unter hochvarianter Token-basierter Importance-Sampling (IS), was die Stabilität der Policy-Optimierung im großen Maßstab beeinträchtigt. Um die Stabilität zu verbessern, verwenden aktuelle Methoden typischerweise ein festes sequenzweites IS-Verhältnis für alle Tokens in einer Sequenz oder passen das IS-Verhältnis jedes Tokens separat an, wodurch die zeitliche Off-Policy-Ableitung über die Tokens einer Sequenz hinweg vernachlässigt wird. In diesem Artikel identifizieren wir zunächst empirisch, dass lokale Off-Policy-Abweichungen auf Token-Ebene strukturell inkonsistent sind, was Policy-Gradient-Updates über benachbarte Tokens hinweg verzerren und zum Trainingszusammenbruch führen kann. Um dieses Problem zu adressieren, schlagen wir Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO) vor. Konkret modellieren wir das gewünschte IS-Verhältnis als einen latenten Zustand, der sich über Tokens hinweg entwickelt, und wenden einen Kalman-Filter an, um diesen Zustand online und autoregressiv basierend auf den Zuständen vergangener Tokens zu aktualisieren, unabhängig von zukünftigen Tokens. Die resultierenden gefilterten IS-Verhältnisse bewahren tokenweise lokale strukturbewusste Variationen, glätten jedoch starke Rauschspitzen effektiv und führen so zu stabileren und effektiveren Policy-Updates. Experimentell erzielt KPO auf anspruchsvollen mathematischen Reasoning-Datensätzen überlegene Ergebnisse im Vergleich zu state-of-the-art Gegenstücken.
English
Reinforcement learning for large language models suffers from high-variance token-level importance sampling (IS) ratios, which would destabilize policy optimization at scale. To improve stability, recent methods typically use a fixed sequence-level IS ratio for all tokens in a sequence or adjust each token's IS ratio separately, thereby neglecting temporal off-policy derivation across tokens in a sequence. In this paper, we first empirically identify that local off-policy deviation is structurally inconsistent at the token level, which may distort policy-gradient updates across adjacent tokens and lead to training collapse. To address the issue, we propose Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Concretely, we model the desired IS ratio as a latent state that evolves across tokens and apply a Kalman filter to update this state online and autoregressively based on the states of past tokens, regardless of future tokens. The resulting filtered IS ratios preserve token-wise local structure-aware variation while strongly smoothing noise spikes, yielding more stable and effective policy updates. Experimentally, KPO achieves superior results on challenging math reasoning datasets compared with state-of-the-art counterparts.