ChatPaper.aiChatPaper

Ersatzsignale aus Format und Länge: Reinforcement Learning zur Lösung mathematischer Probleme ohne Referenzantworten

Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers

May 26, 2025
Autoren: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI

Zusammenfassung

Große Sprachmodelle haben bemerkenswerte Erfolge bei Aufgaben der natürlichen Sprachverarbeitung erzielt, wobei Reinforcement Learning eine Schlüsselrolle bei der Anpassung an spezifische Anwendungen spielt. Die Beschaffung von Ground-Truth-Antworten für das Training von LLMs in der mathematischen Problemlösung ist jedoch oft schwierig, kostspielig und manchmal unmöglich. Diese Forschung untersucht die Nutzung von Format und Länge als Ersatzsignale, um LLMs für die mathematische Problemlösung zu trainieren, ohne auf traditionelle Ground-Truth-Antworten angewiesen zu sein. Unsere Studie zeigt, dass eine Belohnungsfunktion, die sich ausschließlich auf die Formatkorrektheit konzentriert, in frühen Phasen Leistungsverbesserungen erzielen kann, die mit dem Standard-GRPO-Algorithmus vergleichbar sind. In Anerkennung der Grenzen von reinen Formatbelohnungen in späteren Phasen integrieren wir längenbasierte Belohnungen. Der daraus resultierende GRPO-Ansatz, der Format-Längen-Ersatzsignale nutzt, übertrifft in bestimmten Szenarien sogar die Leistung des Standard-GRPO-Algorithmus, der auf Ground-Truth-Antworten angewiesen ist, und erreicht eine Genauigkeit von 40,0 % auf AIME2024 mit einem 7B-Basismodell. Durch systematische Exploration und Experimente bietet diese Forschung nicht nur eine praktische Lösung für das Training von LLMs zur Lösung mathematischer Probleme und zur Reduzierung der Abhängigkeit von umfangreichen Ground-Truth-Datensammlungen, sondern enthüllt auch den Kern, warum unser labelfreier Ansatz erfolgreich ist: Das Basismodell ist wie ein ausgezeichneter Schüler, der bereits mathematische und logische Denkfähigkeiten beherrscht, aber bei der Prüfung schlecht abschneidet. Es muss lediglich gute Antwortgewohnheiten entwickeln, um hervorragende Ergebnisse in Prüfungen zu erzielen, mit anderen Worten, um die Fähigkeiten freizusetzen, die es bereits besitzt.
English
Large Language Models have achieved remarkable success in natural language processing tasks, with Reinforcement Learning playing a key role in adapting them to specific applications. However, obtaining ground truth answers for training LLMs in mathematical problem-solving is often challenging, costly, and sometimes unfeasible. This research delves into the utilization of format and length as surrogate signals to train LLMs for mathematical problem-solving, bypassing the need for traditional ground truth answers.Our study shows that a reward function centered on format correctness alone can yield performance improvements comparable to the standard GRPO algorithm in early phases. Recognizing the limitations of format-only rewards in the later phases, we incorporate length-based rewards. The resulting GRPO approach, leveraging format-length surrogate signals, not only matches but surpasses the performance of the standard GRPO algorithm relying on ground truth answers in certain scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through systematic exploration and experimentation, this research not only offers a practical solution for training LLMs to solve mathematical problems and reducing the dependence on extensive ground truth data collection, but also reveals the essence of why our label-free approach succeeds: base model is like an excellent student who has already mastered mathematical and logical reasoning skills, but performs poorly on the test paper, it simply needs to develop good answering habits to achieve outstanding results in exams , in other words, to unlock the capabilities it already possesses.

Summary

AI-Generated Summary

PDF302May 27, 2025