SimKO: Ottimizzazione Semplice della Politica Pass@K
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
Autori: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
Abstract
Il reinforcement learning con ricompense verificabili (RLVR) ha migliorato le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, i metodi RLVR prevalenti mostrano un bias sistematico verso lo sfruttamento piuttosto che l'esplorazione, come evidenziato da un miglioramento delle prestazioni in pass@1 ma da una riduzione in pass@K (K>1). Per comprendere questo problema, analizziamo le dinamiche di addestramento dei metodi RLVR monitorando le distribuzioni di probabilità a livello di token sui candidati del vocabolario. La nostra analisi rivela un effetto consistente di concentrazione della probabilità, in cui il candidato top-1 accumula progressivamente massa di probabilità e sopprime quella degli altri candidati. Ancora più importante, una maggiore sovra-concentrazione è correlata a prestazioni peggiori in pass@K. Ispirati da questa scoperta, proponiamo Simple Pass@K Optimization (SimKO), un metodo progettato per mitigare il problema della sovra-concentrazione, incoraggiando così l'esplorazione. SimKO opera in modo asimmetrico. Per le risposte verificate come corrette, aumenta le probabilità dei candidati top-K. Per le risposte verificate come errate, applica penalità più severe al candidato top-1. Osserviamo che questo design asimmetrico è particolarmente efficace nel mitigare la sovra-concentrazione quando applicato a token con alta entropia. Su vari benchmark di matematica e ragionamento logico, SimKO produce costantemente valori più alti di pass@K per un'ampia gamma di K, fornendo un modo semplice per migliorare l'esplorazione nell'RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.