ChatPaper.aiChatPaper

SimKO: Eenvoudige Pass@K Beleidsoptimalisatie

SimKO: Simple Pass@K Policy Optimization

October 16, 2025
Auteurs: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) heeft de redeneervaardigheden van grote taalmodellen (LLMs) verder ontwikkeld. Echter, heersende RLVR-methoden vertonen een systematische neiging tot exploitatie boven exploratie, zoals blijkt uit verbeterde pass@1 maar verminderde pass@K (K>1) prestaties. Om dit probleem te begrijpen, analyseren we de trainingsdynamiek van RLVR-methoden door de token-level waarschijnlijkheidsverdelingen over vocabulairekandidaten te volgen. Onze analyse onthult een consistent waarschijnlijkheidsconcentratie-effect waarbij de top-1 kandidaat steeds meer waarschijnlijkheidsmassa accumuleert en die van andere kandidaten onderdrukt. Belangrijker is dat sterkere overconcentratie correleert met slechtere pass@K prestaties. Geïnspireerd door deze bevinding stellen we Simple Pass@K Optimization (SimKO) voor, een methode die is ontworpen om het overconcentratieprobleem te verminderen en daarmee exploratie aan te moedigen. SimKO werkt op een asymmetrische manier. Voor geverifieerd correcte reacties verhoogt het de waarschijnlijkheden van de top-K kandidaten. Voor geverifieerd incorrecte reacties past het sterkere straffen toe op de top-1 kandidaat. We observeren dat dit asymmetrische ontwerp bijzonder effectief is in het verminderen van overconcentratie wanneer het wordt toegepast op tokens met hoge entropie. Over verschillende wiskundige en logisch-redeneerbenchmarks levert SimKO consistent hogere pass@K op voor een breed scala aan K, wat een eenvoudige manier biedt om de exploratie van RLVR te verbeteren.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.
PDF92October 17, 2025