Переосмысление критериев выборки в обучении с подкреплением для рассуждений на основе языковых моделей: перспектива согласования компетенции и сложности
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
May 23, 2025
Авторы: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Аннотация
Обучение с подкреплением демонстрирует потенциал в улучшении способностей крупных языковых моделей к рассуждению, однако его сложно масштабировать из-за низкой эффективности выборки на этапе развертывания. Существующие методы пытаются повысить эффективность, планируя задачи на основе их сложности. Однако эти подходы страдают от нестабильных и смещенных оценок сложности задач и не учитывают соответствие между компетенцией модели и сложностью задачи в процессе обучения с подкреплением, что приводит к субоптимальным результатам. Для устранения этих ограничений в данной статье представлен метод **Сэмплинг с учетом соответствия компетенции и сложности (CDAS)**, который позволяет точно и стабильно оценивать сложность задач путем агрегирования исторических расхождений в производительности. Затем компетенция модели количественно оценивается для адаптивного выбора задач, сложность которых соответствует текущей компетенции модели, с использованием системы фиксированных точек. Результаты экспериментов на ряде сложных математических тестов показывают, что CDAS достигает значительных улучшений как в точности, так и в эффективности. CDAS демонстрирует наивысшую среднюю точность по сравнению с базовыми методами и значительные преимущества в скорости по сравнению с методом Dynamic Sampling, конкурентоспособной стратегией в DAPO, который работает в 2,33 раза медленнее, чем CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning
abilities of large language models, yet it is hard to scale for the low sample
efficiency during the rollout phase. Existing methods attempt to improve
efficiency by scheduling problems based on problem difficulties. However, these
approaches suffer from unstable and biased estimations of problem difficulty
and fail to capture the alignment between model competence and problem
difficulty in RL training, leading to suboptimal results. To tackle these
limitations, this paper introduces Competence-Difficulty
Alignment Sampling (CDAS), which enables accurate
and stable estimation of problem difficulties by aggregating historical
performance discrepancies of problems. Then the model competence is quantified
to adaptively select problems whose difficulty is in alignment with the model's
current competence using a fixed-point system. Experimental results across a
range of challenging mathematical benchmarks show that CDAS achieves great
improvements in both accuracy and efficiency. CDAS attains the highest average
accuracy against baselines and exhibits significant speed advantages compared
to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33
times slower than CDAS.Summary
AI-Generated Summary