ToolRM: Uitkomstbeloningsmodellen voor Grote Taalmodellen met Tool-aanroepfunctionaliteit
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
Auteurs: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLM's) steeds meer interactie hebben met externe tools,
is beloningsmodellering voor toolgebruik een cruciaal maar onderbelicht gebied geworden.
Bestaande beloningsmodellen, voornamelijk getraind op natuurlijke taaloutputs, hebben moeite
om toolgebaseerd redeneren en uitvoering te evalueren. Om deze kloof te kwantificeren, introduceren we
FC-RewardBench, de eerste benchmark die is ontworpen om systematisch de prestaties van beloningsmodellen
in tool-aanroepscenario's te beoordelen. Onze analyse toont aan dat huidige beloningsmodellen vaak
belangrijke signalen van effectief toolgebruik missen, wat de noodzaak voor domeinspecifieke modellering benadrukt.
Om dit aan te pakken, stellen we een trainingsframework voor voor uitkomstgebaseerde beloningsmodellen met behulp van
gegenereerde data van permissief gelicentieerde, open-weight LLM's. We trainen modellen variërend van 1,7B
tot 14B parameters en evalueren ze over zeven out-of-domain benchmarks. Deze modellen presteren consistent beter
dan algemene basislijnen, met een gemiddelde verbetering van tot 25\% in downstream taakprestaties en maken
data-efficiënte fine-tuning mogelijk door middel van beloningsgestuurde filtering.
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.