ToolRM: Uitkomstbeloningsmodellen voor Grote Taalmodellen met Tool-aanroepfunctionaliteit

Samenvatting

Naarmate grote taalmmodellen (LLM's) steeds meer interactie hebben met externe tools, is beloningsmodellering voor toolgebruik een cruciaal maar onderbelicht gebied geworden. Bestaande beloningsmodellen, voornamelijk getraind op natuurlijke taaloutputs, hebben moeite om toolgebaseerd redeneren en uitvoering te evalueren. Om deze kloof te kwantificeren, introduceren we FC-RewardBench, de eerste benchmark die is ontworpen om systematisch de prestaties van beloningsmodellen in tool-aanroepscenario's te beoordelen. Onze analyse toont aan dat huidige beloningsmodellen vaak belangrijke signalen van effectief toolgebruik missen, wat de noodzaak voor domeinspecifieke modellering benadrukt. Om dit aan te pakken, stellen we een trainingsframework voor voor uitkomstgebaseerde beloningsmodellen met behulp van gegenereerde data van permissief gelicentieerde, open-weight LLM's. We trainen modellen variërend van 1,7B tot 14B parameters en evalueren ze over zeven out-of-domain benchmarks. Deze modellen presteren consistent beter dan algemene basislijnen, met een gemiddelde verbetering van tot 25\% in downstream taakprestaties en maken data-efficiënte fine-tuning mogelijk door middel van beloningsgestuurde filtering.

English

As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.

ToolRM: Uitkomstbeloningsmodellen voor Grote Taalmodellen met Tool-aanroepfunctionaliteit

ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

Samenvatting

Support