プロセスベースの自己報酬型言語モデル
Process-based Self-Rewarding Language Models
March 5, 2025
著者: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong
cs.AI
要旨
大規模言語モデル(LLM)は、様々な下流タスクで優れた性能を発揮し、多岐にわたるシナリオで広く応用されています。LLMの性能をさらに向上させるため、人間によるアノテーションされた選好データが学習に用いられていますが、これは人間の性能の上限によって制約を受けます。そこで、自己報酬(Self-Rewarding)手法が提案され、LLMが自身の出力に対して報酬を与えることで学習データを生成する方法が考案されました。しかし、既存の自己報酬パラダイムは数学的推論のシナリオでは効果的ではなく、むしろ性能の低下を招く可能性があります。本研究では、プロセスベースの自己報酬パイプラインを言語モデルに導入し、長考推論、ステップごとのLLM-as-a-Judge、およびステップごとの選好最適化を自己報酬パラダイム内に組み込みました。この新しいパラダイムは、反復的なプロセスベースの自己報酬を通じて、複数の数学的推論ベンチマークにおいてLLMの性能を向上させることに成功し、人間の能力を超えるLLM推論を実現するための自己報酬の大きな可能性を示しています。
English
Large Language Models have demonstrated outstanding performance across
various downstream tasks and have been widely applied in multiple scenarios.
Human-annotated preference data is used for training to further improve LLMs'
performance, which is constrained by the upper limit of human performance.
Therefore, Self-Rewarding method has been proposed, where LLMs generate
training data by rewarding their own outputs. However, the existing
self-rewarding paradigm is not effective in mathematical reasoning scenarios
and may even lead to a decline in performance. In this work, we propose the
Process-based Self-Rewarding pipeline for language models, which introduces
long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference
optimization within the self-rewarding paradigm. Our new paradigm successfully
enhances the performance of LLMs on multiple mathematical reasoning benchmarks
through iterative Process-based Self-Rewarding, demonstrating the immense
potential of self-rewarding to achieve LLM reasoning that may surpass human
capabilities.Summary
AI-Generated Summary