Señales sustitutas a partir del formato y la longitud: Aprendizaje por refuerzo para resolver problemas matemáticos sin respuestas de referencia
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
May 26, 2025
Autores: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de procesamiento de lenguaje natural, con el Aprendizaje por Refuerzo desempeñando un papel clave en su adaptación a aplicaciones específicas. Sin embargo, obtener respuestas de referencia (ground truth) para entrenar LLMs en la resolución de problemas matemáticos suele ser desafiante, costoso y, en ocasiones, inviable. Esta investigación profundiza en la utilización del formato y la longitud como señales sustitutas para entrenar LLMs en la resolución de problemas matemáticos, evitando la necesidad de respuestas de referencia tradicionales. Nuestro estudio demuestra que una función de recompensa centrada únicamente en la corrección del formato puede generar mejoras de rendimiento comparables al algoritmo estándar GRPO en las fases iniciales. Reconociendo las limitaciones de las recompensas basadas solo en el formato en fases posteriores, incorporamos recompensas basadas en la longitud. El enfoque GRPO resultante, que aprovecha señales sustitutas de formato-longitud, no solo iguala sino que supera el rendimiento del algoritmo GRPO estándar que depende de respuestas de referencia en ciertos escenarios, alcanzando un 40.0\% de precisión en AIME2024 con un modelo base de 7B. A través de una exploración y experimentación sistemáticas, esta investigación no solo ofrece una solución práctica para entrenar LLMs en la resolución de problemas matemáticos y reducir la dependencia de la recopilación extensiva de datos de referencia, sino que también revela la esencia de por qué nuestro enfoque sin etiquetas tiene éxito: el modelo base es como un estudiante excelente que ya ha dominado las habilidades de razonamiento matemático y lógico, pero que tiene un desempeño deficiente en el examen; simplemente necesita desarrollar buenos hábitos de respuesta para lograr resultados sobresalientes en los exámenes, es decir, para desbloquear las capacidades que ya posee.
English
Large Language Models have achieved remarkable success in natural language
processing tasks, with Reinforcement Learning playing a key role in adapting
them to specific applications. However, obtaining ground truth answers for
training LLMs in mathematical problem-solving is often challenging, costly, and
sometimes unfeasible. This research delves into the utilization of format and
length as surrogate signals to train LLMs for mathematical problem-solving,
bypassing the need for traditional ground truth answers.Our study shows that a
reward function centered on format correctness alone can yield performance
improvements comparable to the standard GRPO algorithm in early phases.
Recognizing the limitations of format-only rewards in the later phases, we
incorporate length-based rewards. The resulting GRPO approach, leveraging
format-length surrogate signals, not only matches but surpasses the performance
of the standard GRPO algorithm relying on ground truth answers in certain
scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through
systematic exploration and experimentation, this research not only offers a
practical solution for training LLMs to solve mathematical problems and
reducing the dependence on extensive ground truth data collection, but also
reveals the essence of why our label-free approach succeeds: base model is like
an excellent student who has already mastered mathematical and logical
reasoning skills, but performs poorly on the test paper, it simply needs to
develop good answering habits to achieve outstanding results in exams , in
other words, to unlock the capabilities it already possesses.Summary
AI-Generated Summary