ToolRM: Ergebnis-Belohnungsmodelle für werkzeugaufrufende große Sprachmodelle

papers.abstract

Da große Sprachmodelle (LLMs) zunehmend mit externen Tools interagieren, ist die Belohnungsmodellierung für die Tool-Nutzung zu einem kritischen, jedoch noch unzureichend erforschten Bereich geworden. Bestehende Belohnungsmodelle, die hauptsächlich auf natürlichen Sprachausgaben trainiert wurden, haben Schwierigkeiten, tool-basiertes Denken und die Ausführung zu bewerten. Um diese Lücke zu quantifizieren, führen wir FC-RewardBench ein, den ersten Benchmark, der systematisch die Leistung von Belohnungsmodellen in Tool-Aufruf-Szenarien bewertet. Unsere Analyse zeigt, dass aktuelle Belohnungsmodelle oft wichtige Signale für eine effektive Tool-Nutzung übersehen, was die Notwendigkeit einer domänenspezifischen Modellierung unterstreicht. Um dies zu adressieren, schlagen wir ein Trainingsframework für ergebnisbasierte Belohnungsmodelle vor, das Daten verwendet, die aus frei lizenzierten, Open-Weight-LLMs synthetisiert wurden. Wir trainieren Modelle mit einer Größe von 1,7B bis 14B Parametern und bewerten sie anhand von sieben Out-of-Domain-Benchmarks. Diese Modelle übertreffen durchweg allgemeine Baselines und erreichen eine durchschnittliche Verbesserung von bis zu 25 % bei der Leistung in nachgelagerten Aufgaben, wodurch sie eine dateneffiziente Feinabstimmung durch belohnungsgesteuertes Filtern ermöglichen.

English

As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.

ToolRM: Ergebnis-Belohnungsmodelle für werkzeugaufrufende große Sprachmodelle

ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

papers.abstract

Support