Суррогатные сигналы из формата и длины: обучение с подкреплением для решения математических задач без эталонных ответов
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
May 26, 2025
Авторы: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI
Аннотация
Крупные языковые модели достигли значительных успехов в задачах обработки естественного языка, где обучение с подкреплением играет ключевую роль в их адаптации к конкретным приложениям. Однако получение эталонных ответов для обучения языковых моделей в решении математических задач часто оказывается сложным, дорогостоящим, а иногда и невозможным. Данное исследование углубляется в использование формата и длины в качестве суррогатных сигналов для обучения языковых моделей решению математических задач, обходя необходимость в традиционных эталонных ответах. Наше исследование показывает, что функция вознаграждения, основанная исключительно на правильности формата, может привести к улучшению производительности, сопоставимому со стандартным алгоритмом GRPO на начальных этапах. Учитывая ограничения вознаграждений, основанных только на формате, на более поздних этапах мы добавляем вознаграждения, основанные на длине. Получившийся подход GRPO, использующий суррогатные сигналы формата и длины, не только соответствует, но и превосходит производительность стандартного алгоритма GRPO, полагающегося на эталонные ответы, в определенных сценариях, достигая точности 40,0% на AIME2024 с базовой моделью на 7 миллиардов параметров. Благодаря систематическому исследованию и экспериментам, данная работа не только предлагает практическое решение для обучения языковых моделей решению математических задач и снижения зависимости от сбора обширных эталонных данных, но и раскрывает суть успеха нашего подхода без использования меток: базовая модель подобна отличному ученику, который уже овладел математическими и логическими навыками, но плохо справляется с тестами — ей просто нужно выработать хорошие привычки ответов, чтобы достичь выдающихся результатов на экзаменах, другими словами, раскрыть уже имеющиеся у неё способности.
English
Large Language Models have achieved remarkable success in natural language
processing tasks, with Reinforcement Learning playing a key role in adapting
them to specific applications. However, obtaining ground truth answers for
training LLMs in mathematical problem-solving is often challenging, costly, and
sometimes unfeasible. This research delves into the utilization of format and
length as surrogate signals to train LLMs for mathematical problem-solving,
bypassing the need for traditional ground truth answers.Our study shows that a
reward function centered on format correctness alone can yield performance
improvements comparable to the standard GRPO algorithm in early phases.
Recognizing the limitations of format-only rewards in the later phases, we
incorporate length-based rewards. The resulting GRPO approach, leveraging
format-length surrogate signals, not only matches but surpasses the performance
of the standard GRPO algorithm relying on ground truth answers in certain
scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through
systematic exploration and experimentation, this research not only offers a
practical solution for training LLMs to solve mathematical problems and
reducing the dependence on extensive ground truth data collection, but also
reveals the essence of why our label-free approach succeeds: base model is like
an excellent student who has already mastered mathematical and logical
reasoning skills, but performs poorly on the test paper, it simply needs to
develop good answering habits to achieve outstanding results in exams , in
other words, to unlock the capabilities it already possesses.Summary
AI-Generated Summary