SimKO: Optimización de Políticas Simple Pass@K
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
Autores: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha avanzado las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, los métodos predominantes de RLVR muestran un sesgo sistemático hacia la explotación en lugar de la exploración, como lo evidencia una mejora en el rendimiento de pass@1 pero una reducción en el rendimiento de pass@K (K>1). Para comprender este problema, analizamos la dinámica de entrenamiento de los métodos de RLVR mediante el seguimiento de las distribuciones de probabilidad a nivel de token sobre los candidatos del vocabulario. Nuestro análisis revela un efecto consistente de concentración de probabilidad, donde el candidato top-1 acumula cada vez más masa de probabilidad y suprime la de otros candidatos. Más importante aún, una mayor sobreconcentración se correlaciona con un peor rendimiento de pass@K. Inspirados por este hallazgo, proponemos Optimización Simple de Pass@K (SimKO), un método diseñado para mitigar el problema de sobreconcentración, fomentando así la exploración. SimKO opera de manera asimétrica. Para respuestas verificadas como correctas, aumenta las probabilidades de los candidatos top-K. Para respuestas verificadas como incorrectas, aplica penalizaciones más fuertes al candidato top-1. Observamos que este diseño asimétrico es particularmente efectivo para mitigar la sobreconcentración cuando se aplica en tokens con alta entropía. En varios puntos de referencia de matemáticas y razonamiento lógico, SimKO produce consistentemente un mayor pass@K para un amplio rango de K, proporcionando una forma sencilla de mejorar la exploración en RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.