ChatPaper.aiChatPaper

Repensando os Critérios de Amostragem no Aprendizado por Reforço para o Raciocínio de LLMs: Uma Perspectiva de Alinhamento entre Competência e Dificuldade

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Autores: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Resumo

O aprendizado por reforço demonstra potencial para aprimorar as habilidades de raciocínio de modelos de linguagem de grande escala, mas é difícil de escalar devido à baixa eficiência amostral durante a fase de execução. Métodos existentes tentam melhorar a eficiência agendando problemas com base em suas dificuldades. No entanto, essas abordagens sofrem com estimativas instáveis e tendenciosas da dificuldade dos problemas e não conseguem capturar o alinhamento entre a competência do modelo e a dificuldade do problema no treinamento de RL, resultando em desempenho subótimo. Para superar essas limitações, este artigo introduz o Amostragem de Alinhamento Competência-Dificuldade (CDAS), que permite uma estimativa precisa e estável da dificuldade dos problemas agregando discrepâncias de desempenho históricas dos problemas. Em seguida, a competência do modelo é quantificada para selecionar adaptativamente problemas cuja dificuldade está alinhada com a competência atual do modelo usando um sistema de ponto fixo. Resultados experimentais em uma variedade de benchmarks matemáticos desafiadores mostram que o CDAS alcança grandes melhorias tanto em precisão quanto em eficiência. O CDAS atinge a maior precisão média em comparação com as abordagens de referência e exibe vantagens significativas de velocidade em relação à Amostragem Dinâmica, uma estratégia competitiva no DAPO, que é 2,33 vezes mais lenta que o CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.
PDF62December 16, 2025