Подъем высекает мудрость глубже, чем вершина: о шумных наградах в обучении рассуждению
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
Авторы: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
Аннотация
Недавние исследования, посвященные посттренировке больших языковых моделей (LLM) для улучшения способности к рассуждению с использованием обучения с подкреплением (RL), обычно сосредоточены на задачах, которые могут быть точно проверены и вознаграждены, таких как решение математических задач. В отличие от этого, наше исследование изучает влияние шума в вознаграждениях — более практичный аспект для реальных сценариев, связанных с посттренировкой LLM с использованием моделей вознаграждения. Мы обнаружили, что LLM демонстрируют высокую устойчивость к значительному шуму в вознаграждениях. Например, ручное инвертирование 40% выходных данных функции вознаграждения в математических задачах всё же позволяет модели Qwen-2.5-7B достичь быстрой сходимости, улучшая её производительность с 5% до 72% по сравнению с 75% точностью модели, обученной с использованием безошибочных вознаграждений. Удивительно, что вознаграждение только за появление ключевых фраз рассуждения (так называемое вознаграждение за шаблон рассуждения, RPR), таких как «сначала мне нужно», — без проверки правильности ответов — позволило модели достичь пиковой производительности (более 70% точности для Qwen-2.5-7B), сравнимой с моделями, обученными с использованием строгой проверки правильности и точных вознаграждений. Осознавая важность процесса рассуждения по сравнению с конечными результатами, мы объединили RPR с моделями вознаграждения, содержащими шум. RPR помогло калибровать шумные модели вознаграждения, смягчая потенциальные ложные отрицательные результаты и улучшая производительность LLM на задачах с открытым концом. Эти результаты подчеркивают важность улучшения базовых способностей моделей на этапе предварительного обучения, а также предоставляют идеи для развития методов посттренировки. Наш код и скрипты доступны по адресу https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.Summary
AI-Generated Summary