Signaux substituts issus du format et de la longueur : Apprentissage par renforcement pour la résolution de problèmes mathématiques sans réponses de référence
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
May 26, 2025
Auteurs: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont obtenu un succès remarquable dans les tâches de traitement du langage naturel, où l'apprentissage par renforcement joue un rôle clé pour les adapter à des applications spécifiques. Cependant, l'obtention de réponses de référence pour entraîner les LLM à la résolution de problèmes mathématiques est souvent difficile, coûteuse et parfois impossible. Cette recherche explore l'utilisation du format et de la longueur comme signaux substituts pour entraîner les LLM à la résolution de problèmes mathématiques, évitant ainsi le besoin de réponses de référence traditionnelles. Notre étude montre qu'une fonction de récompense centrée uniquement sur la correction du format peut engendrer des améliorations de performance comparables à celles de l'algorithme GRPO standard dans les phases initiales. Conscient des limites des récompenses basées uniquement sur le format dans les phases ultérieures, nous intégrons des récompenses basées sur la longueur. L'approche GRPO résultante, exploitant les signaux substituts de format-longueur, non seulement égalise mais dépasse la performance de l'algorithme GRPO standard reposant sur des réponses de référence dans certains scénarios, atteignant une précision de 40,0 % sur AIME2024 avec un modèle de base de 7B. À travers une exploration et une expérimentation systématiques, cette recherche propose non seulement une solution pratique pour entraîner les LLM à résoudre des problèmes mathématiques et réduire la dépendance à la collecte extensive de données de référence, mais révèle également l'essence du succès de notre approche sans étiquettes : le modèle de base est comme un excellent élève qui maîtrise déjà les compétences de raisonnement mathématique et logique, mais qui performe mal lors des examens. Il a simplement besoin de développer de bonnes habitudes de réponse pour obtenir des résultats exceptionnels, c'est-à-dire pour débloquer les capacités qu'il possède déjà.
English
Large Language Models have achieved remarkable success in natural language
processing tasks, with Reinforcement Learning playing a key role in adapting
them to specific applications. However, obtaining ground truth answers for
training LLMs in mathematical problem-solving is often challenging, costly, and
sometimes unfeasible. This research delves into the utilization of format and
length as surrogate signals to train LLMs for mathematical problem-solving,
bypassing the need for traditional ground truth answers.Our study shows that a
reward function centered on format correctness alone can yield performance
improvements comparable to the standard GRPO algorithm in early phases.
Recognizing the limitations of format-only rewards in the later phases, we
incorporate length-based rewards. The resulting GRPO approach, leveraging
format-length surrogate signals, not only matches but surpasses the performance
of the standard GRPO algorithm relying on ground truth answers in certain
scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through
systematic exploration and experimentation, this research not only offers a
practical solution for training LLMs to solve mathematical problems and
reducing the dependence on extensive ground truth data collection, but also
reveals the essence of why our label-free approach succeeds: base model is like
an excellent student who has already mastered mathematical and logical
reasoning skills, but performs poorly on the test paper, it simply needs to
develop good answering habits to achieve outstanding results in exams , in
other words, to unlock the capabilities it already possesses.Summary
AI-Generated Summary