数学的推論における自己報酬型修正
Self-rewarding correction for mathematical reasoning
February 26, 2025
著者: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
要旨
本研究では、推論時に外部からのフィードバックを必要とせずに、段階的な推論を生成しつつその出力の正しさを評価できる自己報酬型推論大規模言語モデル(LLMs)を検討する。この統合的なアプローチにより、単一のモデルが独立して推論プロセスを導くことが可能となり、モデル展開における計算上の利点を提供する。特に、モデルが自らの応答における誤りを自律的に検出し、出力を修正し、反復的な改善ループをいつ終了するかを決定する自己修正という代表的なタスクに焦点を当てる。これを実現するため、自己生成データのみを用いて自己報酬型推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。第1段階では、自己報酬と自己修正のメカニズムを組み込んだ長い連鎖思考(chain-of-thought)の軌跡を合成するために逐次棄却サンプリングを採用する。これらの精選されたデータでモデルをファインチューニングすることで、自己報酬と自己修正のパターンを学習させる。第2段階では、ルールベースのシグナルを用いた強化学習を通じて、モデルの応答精度の評価能力と出力の改善能力をさらに強化する。Llama-3およびQwen-2.5を用いた実験により、本アプローチが内在的な自己修正能力を凌駕し、外部の報酬モデルに依存するシステムと同等の性能を達成することを実証する。
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary