ChatPaper.aiChatPaper

Filtrado de Kalman Causal en Línea para una Optimización de Políticas Estable y Eficaz

Online Causal Kalman Filtering for Stable and Effective Policy Optimization

February 11, 2026
Autores: Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An
cs.AI

Resumen

El aprendizaje por refuerzo para modelos de lenguaje grandes sufre de ratios de muestreo por importancia a nivel de token con alta varianza, lo que desestabiliza la optimización de políticas a gran escala. Para mejorar la estabilidad, los métodos recientes suelen utilizar un ratio de muestreo por importancia fijo a nivel de secuencia para todos los tokens de una secuencia o ajustar el ratio de cada token por separado, descuidando así la derivación temporal fuera de la política entre los tokens de una secuencia. En este artículo, identificamos empíricamente que la desviación local fuera de la política es estructuralmente inconsistente a nivel de token, lo que puede distorsionar las actualizaciones del gradiente de políticas en tokens adyacentes y provocar un colapso del entrenamiento. Para abordar este problema, proponemos el Filtrado de Kalman Causal en Línea para la Optimización de Políticas Estable y Efectiva (KPO). Concretamente, modelamos el ratio de muestreo por importancia deseado como un estado latente que evoluciona a lo largo de los tokens y aplicamos un filtro de Kalman para actualizar este estado en línea y de forma autorregresiva basándonos en los estados de tokens anteriores, independientemente de los tokens futuros. Los ratios de muestreo por importancia filtrados resultantes preservan la variación local consciente de la estructura a nivel de token mientras suavizan fuertemente los picos de ruido, produciendo actualizaciones de políticas más estables y efectivas. Experimentalmente, KPO logra resultados superiores en conjuntos de datos desafiantes de razonamiento matemático en comparación con las alternativas más avanzadas.
English
Reinforcement learning for large language models suffers from high-variance token-level importance sampling (IS) ratios, which would destabilize policy optimization at scale. To improve stability, recent methods typically use a fixed sequence-level IS ratio for all tokens in a sequence or adjust each token's IS ratio separately, thereby neglecting temporal off-policy derivation across tokens in a sequence. In this paper, we first empirically identify that local off-policy deviation is structurally inconsistent at the token level, which may distort policy-gradient updates across adjacent tokens and lead to training collapse. To address the issue, we propose Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Concretely, we model the desired IS ratio as a latent state that evolves across tokens and apply a Kalman filter to update this state online and autoregressively based on the states of past tokens, regardless of future tokens. The resulting filtered IS ratios preserve token-wise local structure-aware variation while strongly smoothing noise spikes, yielding more stable and effective policy updates. Experimentally, KPO achieves superior results on challenging math reasoning datasets compared with state-of-the-art counterparts.
PDF122February 13, 2026