SimKO: シンプルなPass@Kポリシー最適化
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
著者: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を向上させてきた。しかし、既存のRLVR手法は、探索よりも活用に偏る系統的なバイアスを示しており、これはpass@1の向上に対してpass@K(K>1)の性能低下として現れている。この問題を理解するため、我々はRLVR手法の訓練動態を、語彙候補に対するトークンレベルの確率分布を追跡することで分析した。その結果、トップ1候補が確率質量をますます集中させ、他の候補を抑制する一貫した確率集中効果が明らかになった。さらに重要なことに、この過剰集中が強いほどpass@Kの性能が悪化する傾向が見られた。この発見に基づき、我々は過剰集中を緩和し探索を促進する手法として、Simple Pass@K Optimization(SimKO)を提案する。SimKOは非対称的な方法で動作する。検証済みの正解応答に対しては、トップK候補の確率を向上させる。一方、検証済みの不正解応答に対しては、トップ1候補により強いペナルティを適用する。この非対称設計は、特にエントロピーが高いトークンに適用された場合に過剰集中を緩和する効果が顕著であることが観察された。様々な数学および論理推論のベンチマークにおいて、SimKOは広範囲のK値に対して一貫して高いpass@Kを達成し、RLVRの探索能力を向上させるシンプルな方法を提供する。
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.