ChatPaper.aiChatPaper

안정적이고 효과적인 정책 최적화를 위한 온라인 인과 칼만 필터링

Online Causal Kalman Filtering for Stable and Effective Policy Optimization

February 11, 2026
저자: Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An
cs.AI

초록

대규모 언어 모델의 강화 학습은 높은 분산을 보이는 토큰 수준 중요도 샘플링(IS) 비율로 인해 어려움을 겪으며, 이는 대규모 정책 최적화를 불안정하게 만듭니다. 안정성을 향상시키기 위해 최근 방법들은 일반적으로 시퀀스 내 모든 토큰에 대해 고정된 시퀀스 수준 IS 비율을 사용하거나 각 토큰의 IS 비율을 개별적으로 조정함으로써 시퀀스 내 토큰 간의 시간적 오프-정책 유도를 간과합니다. 본 논문에서는 먼저 토큰 수준에서 지역적 오프-정책 편차가 구조적으로 불일치함을 실증적으로 확인하며, 이는 인접 토큰 간의 정책 그래디언트 업데이트를 왜곡하고 학습 붕괴를 초래할 수 있음을 보입니다. 이 문제를 해결하기 위해 우리는 안정적이고 효과적인 정책 최적화를 위한 온라인 인과 칼만 필터링(KPO)을 제안합니다. 구체적으로, 원하는 IS 비율을 토큰 간에 변화하는 잠재 상태로 모델링하고, 칼만 필터를 적용하여 미래 토큰에 관계없이 과거 토큰의 상태를 기반으로 이 상태를 온라인 및 자기회귀적으로 업데이트합니다. 이를 통해 얻어진 필터링된 IS 비율은 토큰 단위의 지역 구조 인식 변동을 보존하면서 노이즈 스파이크를 강력하게 평활화하여 더 안정적이고 효과적인 정책 업데이트를 가능하게 합니다. 실험적으로 KPO는 도전적인 수학 추론 데이터셋에서 최첨단 대비 방법들보다 우수한 결과를 달성합니다.
English
Reinforcement learning for large language models suffers from high-variance token-level importance sampling (IS) ratios, which would destabilize policy optimization at scale. To improve stability, recent methods typically use a fixed sequence-level IS ratio for all tokens in a sequence or adjust each token's IS ratio separately, thereby neglecting temporal off-policy derivation across tokens in a sequence. In this paper, we first empirically identify that local off-policy deviation is structurally inconsistent at the token level, which may distort policy-gradient updates across adjacent tokens and lead to training collapse. To address the issue, we propose Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Concretely, we model the desired IS ratio as a latent state that evolves across tokens and apply a Kalman filter to update this state online and autoregressively based on the states of past tokens, regardless of future tokens. The resulting filtered IS ratios preserve token-wise local structure-aware variation while strongly smoothing noise spikes, yielding more stable and effective policy updates. Experimentally, KPO achieves superior results on challenging math reasoning datasets compared with state-of-the-art counterparts.
PDF122February 13, 2026