SimKO: Eenvoudige Pass@K Beleidsoptimalisatie
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
Auteurs: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
Samenvatting
Reinforcement learning met verifieerbare beloningen (RLVR) heeft de redeneervaardigheden van grote taalmodellen (LLMs) verder ontwikkeld. Echter, heersende RLVR-methoden vertonen een systematische neiging tot exploitatie boven exploratie, zoals blijkt uit verbeterde pass@1 maar verminderde pass@K (K>1) prestaties. Om dit probleem te begrijpen, analyseren we de trainingsdynamiek van RLVR-methoden door de token-level waarschijnlijkheidsverdelingen over vocabulairekandidaten te volgen. Onze analyse onthult een consistent waarschijnlijkheidsconcentratie-effect waarbij de top-1 kandidaat steeds meer waarschijnlijkheidsmassa accumuleert en die van andere kandidaten onderdrukt. Belangrijker is dat sterkere overconcentratie correleert met slechtere pass@K prestaties. Geïnspireerd door deze bevinding stellen we Simple Pass@K Optimization (SimKO) voor, een methode die is ontworpen om het overconcentratieprobleem te verminderen en daarmee exploratie aan te moedigen. SimKO werkt op een asymmetrische manier. Voor geverifieerd correcte reacties verhoogt het de waarschijnlijkheden van de top-K kandidaten. Voor geverifieerd incorrecte reacties past het sterkere straffen toe op de top-1 kandidaat. We observeren dat dit asymmetrische ontwerp bijzonder effectief is in het verminderen van overconcentratie wanneer het wordt toegepast op tokens met hoge entropie. Over verschillende wiskundige en logisch-redeneerbenchmarks levert SimKO consistent hogere pass@K op voor een breed scala aan K, wat een eenvoudige manier biedt om de exploratie van RLVR te verbeteren.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.