ChatPaper.aiChatPaper

Surrogaatsignalen uit opmaak en lengte: Reinforcement Learning voor het oplossen van wiskundige problemen zonder grondwaarheid-antwoorden

Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers

May 26, 2025
Auteurs: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI

Samenvatting

Grote Taalmodellen hebben opmerkelijke successen behaald in taken voor natuurlijke taalverwerking, waarbij Reinforcement Learning een sleutelrol speelt bij het aanpassen ervan aan specifieke toepassingen. Het verkrijgen van grondwaarheid-antwoorden voor het trainen van LLM's in wiskundig probleemoplossen is echter vaak uitdagend, kostbaar en soms onhaalbaar. Dit onderzoek verdiept zich in het gebruik van formaat en lengte als surrogaatsignalen om LLM's te trainen voor wiskundig probleemoplossen, waarbij de noodzaak voor traditionele grondwaarheid-antwoorden wordt omzeild. Onze studie toont aan dat een beloningsfunctie die alleen gericht is op formaatcorrectheid prestatieverbeteringen kan opleveren die vergelijkbaar zijn met het standaard GRPO-algoritme in de vroege fasen. Erkennend de beperkingen van alleen formaatgerichte beloningen in de latere fasen, nemen we lengtegebaseerde beloningen op. De resulterende GRPO-aanpak, die gebruikmaakt van formaat-lengte surrogaatsignalen, overtreft niet alleen de prestaties van het standaard GRPO-algoritme dat afhankelijk is van grondwaarheid-antwoorden in bepaalde scenario's, maar behaalt ook een nauwkeurigheid van 40,0\% op AIME2024 met een 7B-basismodel. Door systematische verkenning en experimentatie biedt dit onderzoek niet alleen een praktische oplossing voor het trainen van LLM's om wiskundige problemen op te lossen en de afhankelijkheid van uitgebreide grondwaarheid-gegevensverzameling te verminderen, maar onthult het ook de essentie van waarom onze labelvrije aanpak slaagt: het basismodel is als een uitstekende student die al wiskundige en logische redeneervaardigheden heeft beheerst, maar slecht presteert op het proefwerk, het hoeft alleen maar goede antwoordgewoonten te ontwikkelen om uitstekende resultaten te behalen in examens, met andere woorden, om de capaciteiten die het al bezit te ontgrendelen.
English
Large Language Models have achieved remarkable success in natural language processing tasks, with Reinforcement Learning playing a key role in adapting them to specific applications. However, obtaining ground truth answers for training LLMs in mathematical problem-solving is often challenging, costly, and sometimes unfeasible. This research delves into the utilization of format and length as surrogate signals to train LLMs for mathematical problem-solving, bypassing the need for traditional ground truth answers.Our study shows that a reward function centered on format correctness alone can yield performance improvements comparable to the standard GRPO algorithm in early phases. Recognizing the limitations of format-only rewards in the later phases, we incorporate length-based rewards. The resulting GRPO approach, leveraging format-length surrogate signals, not only matches but surpasses the performance of the standard GRPO algorithm relying on ground truth answers in certain scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through systematic exploration and experimentation, this research not only offers a practical solution for training LLMs to solve mathematical problems and reducing the dependence on extensive ground truth data collection, but also reveals the essence of why our label-free approach succeeds: base model is like an excellent student who has already mastered mathematical and logical reasoning skills, but performs poorly on the test paper, it simply needs to develop good answering habits to achieve outstanding results in exams , in other words, to unlock the capabilities it already possesses.
PDF302May 27, 2025