ChatPaper.aiChatPaper

L'ascension grave la sagesse plus profondément que le sommet : sur les récompenses bruyantes dans l'apprentissage du raisonnement

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

May 28, 2025
Auteurs: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI

Résumé

Les études récentes sur l'entraînement postérieur des grands modèles de langage (LLMs) pour le raisonnement via l'apprentissage par renforcement (RL) se concentrent généralement sur des tâches pouvant être vérifiées et récompensées avec précision, comme la résolution de problèmes mathématiques. En revanche, notre recherche examine l'impact du bruit dans les récompenses, une considération plus pratique pour les scénarios réels impliquant l'entraînement postérieur des LLMs à l'aide de modèles de récompense. Nous avons constaté que les LLMs démontrent une forte robustesse face à un bruit substantiel dans les récompenses. Par exemple, inverser manuellement 40 % des sorties de la fonction de récompense dans des tâches mathématiques permet tout de même à un modèle Qwen-2.5-7B d'atteindre une convergence rapide, améliorant ses performances sur les tâches mathématiques de 5 % à 72 %, comparé à la précision de 75 % obtenue par un modèle entraîné avec des récompenses sans bruit. Étonnamment, en récompensant uniquement l'apparition de phrases clés de raisonnement (appelées récompense de modèle de raisonnement, RPR), comme « d'abord, je dois »—sans vérifier la justesse des réponses—le modèle a atteint une performance maximale en aval (plus de 70 % de précision pour Qwen-2.5-7B) comparable à celle des modèles entraînés avec une vérification stricte de la justesse et des récompenses précises. Reconnaissant l'importance du processus de raisonnement par rapport aux résultats finaux, nous avons combiné la RPR avec des modèles de récompense bruités. La RPR a permis de calibrer les modèles de récompense bruités, atténuant les faux négatifs potentiels et améliorant les performances des LLMs sur des tâches ouvertes. Ces résultats soulignent l'importance d'améliorer les capacités fondamentales des modèles pendant la phase de pré-entraînement tout en fournissant des pistes pour faire progresser les techniques d'entraînement postérieur. Notre code et nos scripts sont disponibles à l'adresse suivante : https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as ``first, I need to''-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM's performance on open-ended tasks. These findings suggest the importance of improving models' foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.

Summary

AI-Generated Summary

PDF642May 30, 2025