ToolRM: Modelos de Recompensa Basados en Resultados para Modelos de Lenguaje de Gran Escala con Capacidad de Llamada a Herramientas
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
Autores: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs) interactúan cada vez más con herramientas externas, el modelado de recompensas para el uso de herramientas se ha convertido en un área crítica pero poco explorada. Los modelos de recompensa existentes, entrenados principalmente en salidas de lenguaje natural, tienen dificultades para evaluar el razonamiento y la ejecución basados en herramientas. Para cuantificar esta brecha, presentamos FC-RewardBench, el primer punto de referencia diseñado para evaluar sistemáticamente el rendimiento de los modelos de recompensa en escenarios de llamadas a herramientas. Nuestro análisis muestra que los modelos de recompensa actuales a menudo pasan por alto señales clave del uso efectivo de herramientas, destacando la necesidad de un modelado específico del dominio. Para abordar esto, proponemos un marco de entrenamiento para modelos de recompensa basados en resultados utilizando datos sintetizados a partir de LLMs de código abierto y con licencias permisivas. Entrenamos modelos que van desde 1.7B hasta 14B parámetros y los evaluamos en siete puntos de referencia fuera del dominio. Estos modelos superan consistentemente a los baselines de propósito general, logrando una mejora promedio de hasta el 25\% en el rendimiento de tareas posteriores y permitiendo un ajuste fino eficiente en datos mediante el filtrado guiado por recompensas.
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.