SimKO: Otimização Simples da Política Pass@K

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) avançou as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos predominantes de RLVR exibem um viés sistemático em favor da exploração em detrimento da exploração, como evidenciado pela melhoria no desempenho pass@1, mas pela redução no desempenho pass@K (K>1). Para entender essa questão, analisamos a dinâmica de treinamento dos métodos RLVR rastreando as distribuições de probabilidade em nível de token sobre os candidatos do vocabulário. Nossa análise revela um efeito consistente de concentração de probabilidade, onde o candidato top-1 acumula cada vez mais massa de probabilidade e suprime a dos demais candidatos. Mais importante, uma concentração excessiva mais forte correlaciona-se com um pior desempenho pass@K. Inspirados por essa descoberta, propomos o Simple Pass@K Optimization (SimKO), um método projetado para mitigar o problema de concentração excessiva, incentivando assim a exploração. O SimKO opera de maneira assimétrica. Para respostas verificadas como corretas, ele aumenta as probabilidades dos candidatos top-K. Para respostas verificadas como incorretas, ele aplica penalidades mais fortes ao candidato top-1. Observamos que esse design assimétrico é particularmente eficaz na mitigação da concentração excessiva quando aplicado em tokens com alta entropia. Em vários benchmarks de matemática e raciocínio lógico, o SimKO consistentemente produz um pass@K mais alto para uma ampla gama de K, oferecendo uma maneira simples de melhorar a exploração do RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.

SimKO: Otimização Simples da Política Pass@K

SimKO: Simple Pass@K Policy Optimization

Resumo

Support