Возвращение к основам: переосмысление исследования в обучении с подкреплением для рассуждений больших языковых моделей через генеративные вероятности

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало незаменимой парадигмой для улучшения способностей к рассуждению у больших языковых моделей (LLM). Однако стандартные методы оптимизации политик, такие как групповая относительная оптимизация политик (GRPO), часто сходятся к низкоэнтропийным политикам, что приводит к серьёзному коллапсу мод и ограниченному разнообразию выходных данных. Мы анализируем эту проблему с точки зрения динамики вероятностей выборки, выявляя, что стандартная цель обучения непропорционально усиливает пути с наивысшим правдоподобием, тем самым подавляя допустимые альтернативные цепочки рассуждений. Для решения этой проблемы мы предлагаем новый механизм перевзвешивания преимуществ (ARM), предназначенный для выравнивания уровней уверенности среди всех правильных ответов. Включая перплексию промпта и уверенность ответа в оценку преимущества, наш метод динамически преобразует сигнал вознаграждения, чтобы ослабить градиентные обновления для чрезмерно уверенных путей рассуждений, одновременно перераспределяя вероятностную массу в сторону недостаточно исследованных правильных решений. Эмпирические результаты демонстрируют, что наш подход значительно повышает генеративное разнообразие и энтропию ответов, сохраняя при этом конкурентоспособную точность, эффективно достигая превосходного баланса между исследованием и использованием в задачах рассуждений. Эксперименты на моделях Qwen2.5 и DeepSeek в рамках математических и кодировочных бенчмарков показывают, что ProGRPO существенно смягчает энтропийный коллапс. В частности, для Qwen2.5-7B наш метод превосходит GRPO на 5.7% по метрике Pass@1 и, что примечательно, на 13.9% по Pass@32, что подчеркивает его превосходную способность генерировать разнообразные правильные пути рассуждений.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.

Возвращение к основам: переосмысление исследования в обучении с подкреплением для рассуждений больших языковых моделей через генеративные вероятности

Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

Аннотация

Support