SimKO: Оптимизация политики Simple Pass@K

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно улучшило способности крупных языковых моделей (LLMs) к рассуждению. Однако преобладающие методы RLVR демонстрируют систематическое смещение в сторону эксплуатации в ущерб исследованию, что подтверждается улучшением показателя pass@1 при снижении производительности pass@K (K>1). Чтобы понять эту проблему, мы анализируем динамику обучения методов RLVR, отслеживая распределения вероятностей на уровне токенов среди кандидатов из словаря. Наш анализ выявляет эффект концентрации вероятности, при котором кандидат с наивысшим рейтингом (top-1) всё больше накапливает вероятность, подавляя вероятность других кандидатов. Более того, более сильная избыточная концентрация коррелирует с ухудшением показателя pass@K. Вдохновлённые этим открытием, мы предлагаем метод Simple Pass@K Optimization (SimKO), предназначенный для смягчения проблемы избыточной концентрации, тем самым стимулируя исследование. SimKO работает асимметрично: для верифицированных правильных ответов он увеличивает вероятности кандидатов из топ-K, а для верифицированных неправильных ответов применяет более строгие штрафы к кандидату top-1. Мы наблюдаем, что такой асимметричный подход особенно эффективен для смягчения избыточной концентрации при применении к токенам с высокой энтропией. На различных тестах по математике и логическому рассуждению SimKO стабильно обеспечивает более высокие значения pass@K для широкого диапазона K, предлагая простой способ улучшить исследовательские способности RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.

SimKO: Оптимизация политики Simple Pass@K

SimKO: Simple Pass@K Policy Optimization

Аннотация

Support