Переосмысление критериев выборки в обучении с подкреплением для рассуждений на основе языковых моделей: перспектива согласования компетенции и сложности

Аннотация

Обучение с подкреплением демонстрирует потенциал в улучшении способностей крупных языковых моделей к рассуждению, однако его сложно масштабировать из-за низкой эффективности выборки на этапе развертывания. Существующие методы пытаются повысить эффективность, планируя задачи на основе их сложности. Однако эти подходы страдают от нестабильных и смещенных оценок сложности задач и не учитывают соответствие между компетенцией модели и сложностью задачи в процессе обучения с подкреплением, что приводит к субоптимальным результатам. Для устранения этих ограничений в данной статье представлен метод **Сэмплинг с учетом соответствия компетенции и сложности (CDAS)**, который позволяет точно и стабильно оценивать сложность задач путем агрегирования исторических расхождений в производительности. Затем компетенция модели количественно оценивается для адаптивного выбора задач, сложность которых соответствует текущей компетенции модели, с использованием системы фиксированных точек. Результаты экспериментов на ряде сложных математических тестов показывают, что CDAS достигает значительных улучшений как в точности, так и в эффективности. CDAS демонстрирует наивысшую среднюю точность по сравнению с базовыми методами и значительные преимущества в скорости по сравнению с методом Dynamic Sampling, конкурентоспособной стратегией в DAPO, который работает в 2,33 раза медленнее, чем CDAS.

English

Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.

Переосмысление критериев выборки в обучении с подкреплением для рассуждений на основе языковых моделей: перспектива согласования компетенции и сложности

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

Аннотация

Support