SimKO: Otimização Simples da Política Pass@K
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
Autores: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) avançou as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos predominantes de RLVR exibem um viés sistemático em favor da exploração em detrimento da exploração, como evidenciado pela melhoria no desempenho pass@1, mas pela redução no desempenho pass@K (K>1). Para entender essa questão, analisamos a dinâmica de treinamento dos métodos RLVR rastreando as distribuições de probabilidade em nível de token sobre os candidatos do vocabulário. Nossa análise revela um efeito consistente de concentração de probabilidade, onde o candidato top-1 acumula cada vez mais massa de probabilidade e suprime a dos demais candidatos. Mais importante, uma concentração excessiva mais forte correlaciona-se com um pior desempenho pass@K. Inspirados por essa descoberta, propomos o Simple Pass@K Optimization (SimKO), um método projetado para mitigar o problema de concentração excessiva, incentivando assim a exploração. O SimKO opera de maneira assimétrica. Para respostas verificadas como corretas, ele aumenta as probabilidades dos candidatos top-K. Para respostas verificadas como incorretas, ele aplica penalidades mais fortes ao candidato top-1. Observamos que esse design assimétrico é particularmente eficaz na mitigação da concentração excessiva quando aplicado em tokens com alta entropia. Em vários benchmarks de matemática e raciocínio lógico, o SimKO consistentemente produz um pass@K mais alto para uma ampla gama de K, oferecendo uma maneira simples de melhorar a exploração do RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.