SimKO : Optimisation de la politique Simple Pass@K
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
papers.authors: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a fait progresser les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes RLVR dominantes présentent un biais systématique en faveur de l'exploitation plutôt que de l'exploration, comme en témoigne une amélioration des performances pass@1 mais une réduction des performances pass@K (K>1). Pour comprendre ce problème, nous analysons la dynamique d'entraînement des méthodes RLVR en suivant les distributions de probabilité au niveau des tokens sur les candidats du vocabulaire. Notre analyse révèle un effet de concentration de probabilité consistant, où le candidat top-1 accumule de plus en plus de masse de probabilité et supprime celle des autres candidats. Plus important encore, une sur-concentration plus forte est corrélée à de moins bonnes performances pass@K. Inspirés par cette observation, nous proposons l'Optimisation Simple de Pass@K (SimKO), une méthode conçue pour atténuer le problème de sur-concentration, encourageant ainsi l'exploration. SimKO fonctionne de manière asymétrique. Pour les réponses vérifiées comme correctes, elle augmente les probabilités des candidats top-K. Pour les réponses vérifiées comme incorrectes, elle applique des pénalités plus fortes au candidat top-1. Nous observons que cette conception asymétrique est particulièrement efficace pour atténuer la sur-concentration lorsqu'elle est appliquée aux tokens à forte entropie. Sur divers benchmarks de mathématiques et de raisonnement logique, SimKO produit systématiquement des performances pass@K plus élevées pour une large gamme de K, offrant ainsi une manière simple d'améliorer l'exploration dans le cadre du RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.