ChatPaper.aiChatPaper

SimKO: Optimización de Políticas Simple Pass@K

SimKO: Simple Pass@K Policy Optimization

October 16, 2025
Autores: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha avanzado las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, los métodos predominantes de RLVR muestran un sesgo sistemático hacia la explotación en lugar de la exploración, como lo evidencia una mejora en el rendimiento de pass@1 pero una reducción en el rendimiento de pass@K (K>1). Para comprender este problema, analizamos la dinámica de entrenamiento de los métodos de RLVR mediante el seguimiento de las distribuciones de probabilidad a nivel de token sobre los candidatos del vocabulario. Nuestro análisis revela un efecto consistente de concentración de probabilidad, donde el candidato top-1 acumula cada vez más masa de probabilidad y suprime la de otros candidatos. Más importante aún, una mayor sobreconcentración se correlaciona con un peor rendimiento de pass@K. Inspirados por este hallazgo, proponemos Optimización Simple de Pass@K (SimKO), un método diseñado para mitigar el problema de sobreconcentración, fomentando así la exploración. SimKO opera de manera asimétrica. Para respuestas verificadas como correctas, aumenta las probabilidades de los candidatos top-K. Para respuestas verificadas como incorrectas, aplica penalizaciones más fuertes al candidato top-1. Observamos que este diseño asimétrico es particularmente efectivo para mitigar la sobreconcentración cuando se aplica en tokens con alta entropía. En varios puntos de referencia de matemáticas y razonamiento lógico, SimKO produce consistentemente un mayor pass@K para un amplio rango de K, proporcionando una forma sencilla de mejorar la exploración en RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.
PDF92October 17, 2025