ChatPaper.aiChatPaper

SimKO: Einfache Pass@K-Policy-Optimierung

SimKO: Simple Pass@K Policy Optimization

October 16, 2025
papers.authors: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI

papers.abstract

Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung weiterentwickelt. Allerdings zeigen vorherrschende RLVR-Methoden eine systematische Tendenz zur Ausnutzung gegenüber der Exploration, was sich in verbesserten pass@1-, aber reduzierten pass@K-Leistungen (K>1) widerspiegelt. Um dieses Problem zu verstehen, analysieren wir die Trainingsdynamik von RLVR-Methoden, indem wir die tokenbezogenen Wahrscheinlichkeitsverteilungen über die Vokabular-Kandidaten verfolgen. Unsere Analyse zeigt einen konsistenten Wahrscheinlichkeitskonzentrationseffekt, bei dem der Top-1-Kandidat zunehmend Wahrscheinlichkeitsmasse ansammelt und die anderer Kandidaten unterdrückt. Wichtiger ist, dass eine stärkere Überkonzentration mit einer schlechteren pass@K-Leistung korreliert. Inspiriert von dieser Erkenntnis schlagen wir Simple Pass@K Optimization (SimKO) vor, eine Methode, die darauf abzielt, das Überkonzentrationsproblem zu mildern und dadurch die Exploration zu fördern. SimKO arbeitet auf asymmetrische Weise. Für verifiziert korrekte Antworten erhöht es die Wahrscheinlichkeiten der Top-K-Kandidaten. Für verifiziert falsche Antworten wendet es stärkere Strafen auf den Top-1-Kandidaten an. Wir beobachten, dass dieses asymmetrische Design besonders effektiv ist, um Überkonzentration zu mildern, wenn es auf Tokens mit hoher Entropie angewendet wird. Über verschiedene mathematische und logische Schlussfolgerungs-Benchmarks hinweg erzielt SimKO durchweg höhere pass@K-Werte für eine breite Spanne von K, was eine einfache Möglichkeit bietet, die Exploration von RLVR zu verbessern.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.
PDF92October 17, 2025