SimKO: Einfache Pass@K-Policy-Optimierung
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
papers.authors: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
papers.abstract
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung weiterentwickelt. Allerdings zeigen vorherrschende RLVR-Methoden eine systematische Tendenz zur Ausnutzung gegenüber der Exploration, was sich in verbesserten pass@1-, aber reduzierten pass@K-Leistungen (K>1) widerspiegelt. Um dieses Problem zu verstehen, analysieren wir die Trainingsdynamik von RLVR-Methoden, indem wir die tokenbezogenen Wahrscheinlichkeitsverteilungen über die Vokabular-Kandidaten verfolgen. Unsere Analyse zeigt einen konsistenten Wahrscheinlichkeitskonzentrationseffekt, bei dem der Top-1-Kandidat zunehmend Wahrscheinlichkeitsmasse ansammelt und die anderer Kandidaten unterdrückt. Wichtiger ist, dass eine stärkere Überkonzentration mit einer schlechteren pass@K-Leistung korreliert. Inspiriert von dieser Erkenntnis schlagen wir Simple Pass@K Optimization (SimKO) vor, eine Methode, die darauf abzielt, das Überkonzentrationsproblem zu mildern und dadurch die Exploration zu fördern. SimKO arbeitet auf asymmetrische Weise. Für verifiziert korrekte Antworten erhöht es die Wahrscheinlichkeiten der Top-K-Kandidaten. Für verifiziert falsche Antworten wendet es stärkere Strafen auf den Top-1-Kandidaten an. Wir beobachten, dass dieses asymmetrische Design besonders effektiv ist, um Überkonzentration zu mildern, wenn es auf Tokens mit hoher Entropie angewendet wird. Über verschiedene mathematische und logische Schlussfolgerungs-Benchmarks hinweg erzielt SimKO durchweg höhere pass@K-Werte für eine breite Spanne von K, was eine einfache Möglichkeit bietet, die Exploration von RLVR zu verbessern.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.