SimKO: Оптимизация политики Simple Pass@K
SimKO: Simple Pass@K Policy Optimization
October 16, 2025
Авторы: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно улучшило способности крупных языковых моделей (LLMs) к рассуждению. Однако преобладающие методы RLVR демонстрируют систематическое смещение в сторону эксплуатации в ущерб исследованию, что подтверждается улучшением показателя pass@1 при снижении производительности pass@K (K>1). Чтобы понять эту проблему, мы анализируем динамику обучения методов RLVR, отслеживая распределения вероятностей на уровне токенов среди кандидатов из словаря. Наш анализ выявляет эффект концентрации вероятности, при котором кандидат с наивысшим рейтингом (top-1) всё больше накапливает вероятность, подавляя вероятность других кандидатов. Более того, более сильная избыточная концентрация коррелирует с ухудшением показателя pass@K. Вдохновлённые этим открытием, мы предлагаем метод Simple Pass@K Optimization (SimKO), предназначенный для смягчения проблемы избыточной концентрации, тем самым стимулируя исследование. SimKO работает асимметрично: для верифицированных правильных ответов он увеличивает вероятности кандидатов из топ-K, а для верифицированных неправильных ответов применяет более строгие штрафы к кандидату top-1. Мы наблюдаем, что такой асимметричный подход особенно эффективен для смягчения избыточной концентрации при применении к токенам с высокой энтропией. На различных тестах по математике и логическому рассуждению SimKO стабильно обеспечивает более высокие значения pass@K для широкого диапазона K, предлагая простой способ улучшить исследовательские способности RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has advanced the
reasoning capabilities of large language models (LLMs). However, prevailing
RLVR methods exhibit a systematic bias toward exploitation over exploration, as
evidenced by improved pass@1 but reduced pass@K (K>1) performance. To
understand this issue, we analyze training dynamics of RLVR methods by tracking
the token-level probability distributions over vocabulary candidates. Our
analysis reveals a consistent probability concentration effect where the top-1
candidate increasingly accumulates probability mass and suppresses that of
other candidates. More importantly, stronger over-concentration correlates with
worse pass@K performance. Inspired by this finding, we propose Simple Pass@K
Optimization (SimKO), a method designed to mitigate the over-concentration
issue, thereby encouraging exploration. SimKO operates in an asymmetrical
manner. For verified-correct responses, it boosts the probabilities of the
top-K candidates. For verified-incorrect responses, it applies stronger
penalties to the top-1 candidate. We observe that this asymmetric design is
particularly effective at mitigating over-concentration when applied at tokens
with high entropy. Across various math and logical-reasoning benchmarks, SimKO
consistently yields higher pass@K for a wide range of K, providing a simple way
to improve RLVR's exploration.