ToolRM: Modelli di Ricompensa sui Risultati per Modelli Linguistici di Grande Dimensione con Chiamata a Strumenti
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
Autori: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) interagiscono sempre più con strumenti esterni, la modellazione delle ricompense per l'uso di tali strumenti è diventata un'area critica ma ancora poco esplorata. I modelli di ricompensa esistenti, addestrati principalmente su output in linguaggio naturale, faticano a valutare il ragionamento e l'esecuzione basati su strumenti. Per quantificare questo divario, introduciamo FC-RewardBench, il primo benchmark progettato per valutare sistematicamente le prestazioni dei modelli di ricompensa in scenari di chiamata a strumenti. La nostra analisi mostra che gli attuali modelli di ricompensa spesso trascurano segnali chiave di un uso efficace degli strumenti, evidenziando la necessità di una modellazione specifica per il dominio. Per affrontare questo problema, proponiamo un framework di addestramento per modelli di ricompensa basati sui risultati, utilizzando dati sintetizzati da LLM con licenza permissiva e pesi aperti. Addestriamo modelli che vanno da 1,7 miliardi a 14 miliardi di parametri e li valutiamo su sette benchmark fuori dominio. Questi modelli superano costantemente i baseline generici, ottenendo un miglioramento medio fino al 25\% nelle prestazioni delle attività downstream e consentendo un fine-tuning efficiente in termini di dati attraverso il filtraggio guidato dalle ricompense.
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.