ToolRM: ツール呼び出し型大規模言語モデルのための成果報酬モデル
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
著者: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
要旨
大規模言語モデル(LLM)が外部ツールとの相互作用を増すにつれ、ツール使用のための報酬モデリングは重要でありながら未開拓の領域となっています。既存の報酬モデルは、主に自然言語出力に基づいて訓練されており、ツールベースの推論と実行を評価するのに苦労しています。このギャップを定量化するため、我々はFC-RewardBenchを導入しました。これは、ツール呼び出しシナリオにおける報酬モデルの性能を体系的に評価する初のベンチマークです。我々の分析によると、現在の報酬モデルは効果的なツール使用の重要な信号を見逃すことが多く、ドメイン固有のモデリングの必要性が浮き彫りになっています。これを解決するため、我々は許可されたオープンウェイトLLMから合成されたデータを使用して、結果ベースの報酬モデルを訓練するフレームワークを提案します。1.7Bから14Bパラメータまでのモデルを訓練し、7つのドメイン外ベンチマークで評価しました。これらのモデルは、汎用ベースラインを一貫して上回り、下流タスクの性能で最大25%の平均改善を達成し、報酬ガイド付きフィルタリングを通じてデータ効率の良いファインチューニングを可能にしました。
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.