Sinais Substitutos de Formato e Comprimento: Aprendizado por Reforço para Resolver Problemas Matemáticos sem Respostas Verdadeiras de Referência
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
May 26, 2025
Autores: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável em tarefas de processamento de linguagem natural, com o Aprendizado por Reforço desempenhando um papel crucial na adaptação deles para aplicações específicas. No entanto, obter respostas de verdade fundamental (ground truth) para treinar LLMs na resolução de problemas matemáticos é frequentemente desafiador, custoso e, às vezes, inviável. Esta pesquisa investiga a utilização de formato e comprimento como sinais substitutos para treinar LLMs na resolução de problemas matemáticos, contornando a necessidade de respostas de verdade fundamental tradicionais. Nosso estudo mostra que uma função de recompensa focada apenas na correção do formato pode gerar melhorias de desempenho comparáveis ao algoritmo GRPO padrão nas fases iniciais. Reconhecendo as limitações das recompensas baseadas apenas no formato nas fases posteriores, incorporamos recompensas baseadas no comprimento. A abordagem GRPO resultante, que aproveita sinais substitutos de formato-comprimento, não apenas iguala, mas supera o desempenho do algoritmo GRPO padrão que depende de respostas de verdade fundamental em certos cenários, alcançando 40,0% de precisão no AIME2024 com um modelo base de 7B. Através de exploração e experimentação sistemáticas, esta pesquisa não apenas oferece uma solução prática para treinar LLMs na resolução de problemas matemáticos e reduzir a dependência da coleta extensiva de dados de verdade fundamental, mas também revela a essência do porquê nossa abordagem sem rótulos tem sucesso: o modelo base é como um excelente aluno que já dominou habilidades de raciocínio matemático e lógico, mas se sai mal na prova, ele simplesmente precisa desenvolver bons hábitos de resposta para alcançar resultados excepcionais em exames, ou seja, para desbloquear as capacidades que já possui.
English
Large Language Models have achieved remarkable success in natural language
processing tasks, with Reinforcement Learning playing a key role in adapting
them to specific applications. However, obtaining ground truth answers for
training LLMs in mathematical problem-solving is often challenging, costly, and
sometimes unfeasible. This research delves into the utilization of format and
length as surrogate signals to train LLMs for mathematical problem-solving,
bypassing the need for traditional ground truth answers.Our study shows that a
reward function centered on format correctness alone can yield performance
improvements comparable to the standard GRPO algorithm in early phases.
Recognizing the limitations of format-only rewards in the later phases, we
incorporate length-based rewards. The resulting GRPO approach, leveraging
format-length surrogate signals, not only matches but surpasses the performance
of the standard GRPO algorithm relying on ground truth answers in certain
scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through
systematic exploration and experimentation, this research not only offers a
practical solution for training LLMs to solve mathematical problems and
reducing the dependence on extensive ground truth data collection, but also
reveals the essence of why our label-free approach succeeds: base model is like
an excellent student who has already mastered mathematical and logical
reasoning skills, but performs poorly on the test paper, it simply needs to
develop good answering habits to achieve outstanding results in exams , in
other words, to unlock the capabilities it already possesses.