ToolRM: Ergebnis-Belohnungsmodelle für werkzeugaufrufende große Sprachmodelle
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
papers.authors: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
papers.abstract
Da große Sprachmodelle (LLMs) zunehmend mit externen Tools interagieren, ist die Belohnungsmodellierung für die Tool-Nutzung zu einem kritischen, jedoch noch unzureichend erforschten Bereich geworden. Bestehende Belohnungsmodelle, die hauptsächlich auf natürlichen Sprachausgaben trainiert wurden, haben Schwierigkeiten, tool-basiertes Denken und die Ausführung zu bewerten. Um diese Lücke zu quantifizieren, führen wir FC-RewardBench ein, den ersten Benchmark, der systematisch die Leistung von Belohnungsmodellen in Tool-Aufruf-Szenarien bewertet. Unsere Analyse zeigt, dass aktuelle Belohnungsmodelle oft wichtige Signale für eine effektive Tool-Nutzung übersehen, was die Notwendigkeit einer domänenspezifischen Modellierung unterstreicht. Um dies zu adressieren, schlagen wir ein Trainingsframework für ergebnisbasierte Belohnungsmodelle vor, das Daten verwendet, die aus frei lizenzierten, Open-Weight-LLMs synthetisiert wurden. Wir trainieren Modelle mit einer Größe von 1,7B bis 14B Parametern und bewerten sie anhand von sieben Out-of-Domain-Benchmarks. Diese Modelle übertreffen durchweg allgemeine Baselines und erreichen eine durchschnittliche Verbesserung von bis zu 25 % bei der Leistung in nachgelagerten Aufgaben, wodurch sie eine dateneffiziente Feinabstimmung durch belohnungsgesteuertes Filtern ermöglichen.
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.