ChatPaper.aiChatPaper

Repenser les critères d'échantillonnage en apprentissage par renforcement pour le raisonnement des LLM : une perspective d'alignement compétence-difficulté

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Auteurs: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Résumé

L'apprentissage par renforcement montre un potentiel pour améliorer les capacités de raisonnement des grands modèles de langage, mais il est difficile de le mettre à l'échelle en raison de la faible efficacité des échantillons pendant la phase de déploiement. Les méthodes existantes tentent d'améliorer cette efficacité en planifiant les problèmes en fonction de leur difficulté. Cependant, ces approches souffrent d'estimations instables et biaisées de la difficulté des problèmes et ne parviennent pas à capturer l'alignement entre la compétence du modèle et la difficulté des problèmes lors de l'entraînement par renforcement, ce qui conduit à des résultats sous-optimaux. Pour surmonter ces limitations, cet article introduit l'**Échantillonnage Aligné sur la Compétence-Difficulté (CDAS)**, qui permet une estimation précise et stable de la difficulté des problèmes en agrégeant les écarts de performance historiques des problèmes. Ensuite, la compétence du modèle est quantifiée pour sélectionner de manière adaptative les problèmes dont la difficulté est alignée avec la compétence actuelle du modèle, en utilisant un système à point fixe. Les résultats expérimentaux sur une série de benchmarks mathématiques difficiles montrent que CDAS réalise des améliorations significatives en termes de précision et d'efficacité. CDAS atteint la précision moyenne la plus élevée par rapport aux méthodes de référence et présente des avantages significatifs en termes de vitesse par rapport à l'**Échantillonnage Dynamique**, une stratégie concurrente dans DAPO, qui est 2,33 fois plus lent que CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.

Summary

AI-Generated Summary

PDF62May 27, 2025