SimKO: Ottimizzazione Semplice della Politica Pass@K

Abstract

Il reinforcement learning con ricompense verificabili (RLVR) ha migliorato le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, i metodi RLVR prevalenti mostrano un bias sistematico verso lo sfruttamento piuttosto che l'esplorazione, come evidenziato da un miglioramento delle prestazioni in pass@1 ma da una riduzione in pass@K (K>1). Per comprendere questo problema, analizziamo le dinamiche di addestramento dei metodi RLVR monitorando le distribuzioni di probabilità a livello di token sui candidati del vocabolario. La nostra analisi rivela un effetto consistente di concentrazione della probabilità, in cui il candidato top-1 accumula progressivamente massa di probabilità e sopprime quella degli altri candidati. Ancora più importante, una maggiore sovra-concentrazione è correlata a prestazioni peggiori in pass@K. Ispirati da questa scoperta, proponiamo Simple Pass@K Optimization (SimKO), un metodo progettato per mitigare il problema della sovra-concentrazione, incoraggiando così l'esplorazione. SimKO opera in modo asimmetrico. Per le risposte verificate come corrette, aumenta le probabilità dei candidati top-K. Per le risposte verificate come errate, applica penalità più severe al candidato top-1. Osserviamo che questo design asimmetrico è particolarmente efficace nel mitigare la sovra-concentrazione quando applicato a token con alta entropia. Su vari benchmark di matematica e ragionamento logico, SimKO produce costantemente valori più alti di pass@K per un'ampia gamma di K, fornendo un modo semplice per migliorare l'esplorazione nell'RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.

SimKO: Ottimizzazione Semplice della Politica Pass@K

SimKO: Simple Pass@K Policy Optimization

Abstract

Support