ChatPaper.aiChatPaper

数学的推論における教師あり学習と強化学習の橋渡し

Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

May 23, 2025
著者: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI

要旨

強化学習(RL)は、バイナリ検証信号を通じた自己改善を可能にすることで、最近の大規模言語モデル(LLM)の数学能力の向上において中心的な役割を果たしてきた。一方で、教師あり学習(SL)は、参照回答への過度の依存や誤りを反映できないことから、検証駆動型のトレーニングにはほとんど考慮されていない。本研究では、自己改善がRLに限定されているという通説に挑戦し、外部の教師なしでLLMが失敗を反映し自律的に改善することを可能にする教師ありアプローチである「Negative-aware Fine-Tuning(NFT)」を提案する。オンライントレーニングにおいて、NFTは自己生成された否定的な回答を捨てるのではなく、それらをモデル化するための暗黙的な否定的ポリシーを構築する。この暗黙的なポリシーは、ポジティブデータに対して最適化する対象と同じLLMでパラメータ化されており、すべてのLLMの生成に対して直接的なポリシー最適化を可能にする。7Bおよび32Bモデルを用いた数学的推論タスクでの実験を行った結果、否定的フィードバックを追加的に活用することで、NFTはRejection sampling Fine-TuningのようなSLベースラインを大幅に上回り、GRPOやDAPOのような主要なRLアルゴリズムに匹敵し、場合によってはそれを凌駕することが一貫して示された。さらに、NFTとGRPOは、まったく異なる理論的基盤に由来しているにもかかわらず、厳密なオン・ポリシートレーニングにおいて実際には等価であることを示す。我々の実験と理論的知見は、バイナリフィードバック学習システムにおけるSLとRLの手法の間のギャップを埋めるものである。
English
Reinforcement Learning (RL) has played a central role in the recent surge of LLMs' math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs' generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.

Summary

AI-Generated Summary

PDF42May 27, 2025