ChatPaper.aiChatPaper

Ripensare i criteri di campionamento nel Reinforcement Learning per il ragionamento con LLM: una prospettiva di allineamento competenza-difficoltà

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Autori: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Abstract

L'apprendimento per rinforzo mostra potenziale nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni, ma risulta difficile da scalare a causa della bassa efficienza campionaria durante la fase di rollout. I metodi esistenti cercano di migliorare l'efficienza pianificando i problemi in base alla loro difficoltà. Tuttavia, questi approcci soffrono di stime instabili e distorte della difficoltà dei problemi e non riescono a catturare l'allineamento tra la competenza del modello e la difficoltà del problema durante l'addestramento RL, portando a risultati subottimali. Per affrontare queste limitazioni, questo articolo introduce il Campionamento Allineato Competenza-Difficoltà (CDAS), che consente una stima accurata e stabile della difficoltà dei problemi aggregando le discrepanze di prestazione storiche dei problemi. La competenza del modello viene quindi quantificata per selezionare in modo adattivo i problemi la cui difficoltà è allineata con la competenza attuale del modello utilizzando un sistema a punto fisso. I risultati sperimentali su una gamma di benchmark matematici impegnativi mostrano che CDAS ottiene notevoli miglioramenti sia in termini di accuratezza che di efficienza. CDAS raggiunge la più alta accuratezza media rispetto ai metodi di riferimento e mostra significativi vantaggi in termini di velocità rispetto al Campionamento Dinamico, una strategia competitiva in DAPO, che è 2,33 volte più lento di CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.
PDF62May 27, 2025