ChatPaper.aiChatPaper

Heroverweging van de Steekproefcriteria in Reinforcement Learning voor LLM-redenering: Een Perspectief op Competentie-Moeilijkheidsafstemming

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Auteurs: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Samenvatting

Reinforcement learning toont potentie in het verbeteren van de redeneervaardigheden van grote taalmodelen, maar het is moeilijk op te schalen vanwege de lage steekproefficiëntie tijdens de uitrolfase. Bestaande methoden proberen de efficiëntie te verbeteren door problemen te plannen op basis van hun moeilijkheidsgraad. Deze benaderingen kampen echter met instabiele en bevooroordeelde schattingen van de probleemmoeilijkheid en slagen er niet in om de afstemming tussen modelcompetentie en probleemmoeilijkheid in RL-training vast te leggen, wat leidt tot suboptimale resultaten. Om deze beperkingen aan te pakken, introduceert dit artikel Competence-Difficulty Alignment Sampling (CDAS), dat een nauwkeurige en stabiele schatting van probleemmoeilijkheden mogelijk maakt door historische prestatieverschillen van problemen te aggregeren. Vervolgens wordt de modelcompetentie gekwantificeerd om adaptief problemen te selecteren waarvan de moeilijkheidsgraad in lijn is met de huidige competentie van het model, gebruikmakend van een vast puntensysteem. Experimentele resultaten over een reeks uitdagende wiskundige benchmarks tonen aan dat CDAS grote verbeteringen bereikt in zowel nauwkeurigheid als efficiëntie. CDAS behaalt de hoogste gemiddelde nauwkeurigheid ten opzichte van baseline-methoden en vertoont aanzienlijke snelheidsvoordelen in vergelijking met Dynamic Sampling, een competitieve strategie in DAPO, die 2,33 keer langzamer is dan CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.
PDF62May 27, 2025