ChatPaper.aiChatPaper

Replanteando los Criterios de Muestreo en el Aprendizaje por Refuerzo para el Razonamiento de LLM: Una Perspectiva de Alineación Competencia-Dificultad

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Autores: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Resumen

El aprendizaje por refuerzo muestra potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes, aunque resulta difícil escalar debido a la baja eficiencia de muestreo durante la fase de ejecución. Los métodos existentes intentan mejorar la eficiencia programando problemas según su dificultad. Sin embargo, estos enfoques sufren de estimaciones inestables y sesgadas de la dificultad de los problemas y no logran captar la alineación entre la competencia del modelo y la dificultad del problema durante el entrenamiento por refuerzo, lo que conduce a resultados subóptimos. Para abordar estas limitaciones, este artículo introduce el Muestreo de Alineación Competencia-Dificultad (CDAS, por sus siglas en inglés), que permite una estimación precisa y estable de la dificultad de los problemas mediante la agregación de discrepancias históricas en el rendimiento de los problemas. Luego, la competencia del modelo se cuantifica para seleccionar de manera adaptativa problemas cuya dificultad esté alineada con la competencia actual del modelo utilizando un sistema de punto fijo. Los resultados experimentales en una variedad de desafiantes benchmarks matemáticos muestran que CDAS logra grandes mejoras tanto en precisión como en eficiencia. CDAS alcanza la mayor precisión promedio en comparación con los métodos base y exhibe ventajas significativas en velocidad frente a Muestreo Dinámico, una estrategia competitiva en DAPO, que es 2.33 veces más lenta que CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.

Summary

AI-Generated Summary

PDF62May 27, 2025