ChatPaper.aiChatPaper

Neubewertung der Sampling-Kriterien im Reinforcement Learning für LLM-Reasoning: Eine Perspektive der Kompetenz-Schwierigkeits-Ausrichtung

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23, 2025
Autoren: Deyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Zusammenfassung

Reinforcement Learning zeigt Potenzial bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle, ist jedoch aufgrund der geringen Stichprobeneffizienz während der Rollout-Phase schwer skalierbar. Bestehende Methoden versuchen, die Effizienz durch die Planung von Problemen basierend auf deren Schwierigkeitsgrad zu verbessern. Diese Ansätze leiden jedoch unter instabilen und verzerrten Schätzungen des Schwierigkeitsgrads von Problemen und erfassen nicht die Übereinstimmung zwischen der Modellkompetenz und dem Schwierigkeitsgrad während des RL-Trainings, was zu suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellt diese Arbeit das Competence-Difficulty Alignment Sampling (CDAS) vor, das eine genaue und stabile Schätzung des Schwierigkeitsgrads von Problemen durch die Aggregation historischer Leistungsunterschiede ermöglicht. Anschließend wird die Modellkompetenz quantifiziert, um adaptiv Probleme auszuwählen, deren Schwierigkeitsgrad mit der aktuellen Kompetenz des Modells übereinstimmt, wobei ein Fixpunktsystem verwendet wird. Experimentelle Ergebnisse über eine Reihe anspruchsvoller mathematischer Benchmarks zeigen, dass CDAS sowohl in Bezug auf Genauigkeit als auch Effizienz erhebliche Verbesserungen erzielt. CDAS erreicht die höchste durchschnittliche Genauigkeit im Vergleich zu den Baselines und weist signifikante Geschwindigkeitsvorteile gegenüber Dynamic Sampling auf, einer konkurrenzfähigen Strategie in DAPO, die 2,33-mal langsamer ist als CDAS.
English
Reinforcement learning exhibits potential in enhancing the reasoning abilities of large language models, yet it is hard to scale for the low sample efficiency during the rollout phase. Existing methods attempt to improve efficiency by scheduling problems based on problem difficulties. However, these approaches suffer from unstable and biased estimations of problem difficulty and fail to capture the alignment between model competence and problem difficulty in RL training, leading to suboptimal results. To tackle these limitations, this paper introduces Competence-Difficulty Alignment Sampling (CDAS), which enables accurate and stable estimation of problem difficulties by aggregating historical performance discrepancies of problems. Then the model competence is quantified to adaptively select problems whose difficulty is in alignment with the model's current competence using a fixed-point system. Experimental results across a range of challenging mathematical benchmarks show that CDAS achieves great improvements in both accuracy and efficiency. CDAS attains the highest average accuracy against baselines and exhibits significant speed advantages compared to Dynamic Sampling, a competitive strategy in DAPO, which is 2.33 times slower than CDAS.

Summary

AI-Generated Summary

PDF62May 27, 2025