ToolRM: Modelos de Recompensa por Resultados para Modelos de Linguagem de Grande Porte com Chamada de Ferramentas
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
September 15, 2025
Autores: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) interagem cada vez mais com ferramentas externas, a modelagem de recompensas para o uso de ferramentas tornou-se uma área crítica, porém pouco explorada. Os modelos de recompensa existentes, treinados principalmente em saídas de linguagem natural, têm dificuldade em avaliar o raciocínio e a execução baseados em ferramentas. Para quantificar essa lacuna, introduzimos o FC-RewardBench, o primeiro benchmark projetado para avaliar sistematicamente o desempenho dos modelos de recompensa em cenários de chamada de ferramentas. Nossa análise mostra que os modelos de recompensa atuais frequentemente perdem sinais-chave de uso eficaz de ferramentas, destacando a necessidade de modelagem específica para o domínio. Para abordar isso, propomos um framework de treinamento para modelos de recompensa baseados em resultados, utilizando dados sintetizados de LLMs de código aberto e licenciados de forma permissiva. Treinamos modelos variando de 1,7B a 14B parâmetros e os avaliamos em sete benchmarks fora do domínio. Esses modelos superam consistentemente as linhas de base de propósito geral, alcançando uma melhoria média de até 25% no desempenho de tarefas subsequentes e permitindo ajuste fino eficiente em termos de dados por meio de filtragem guiada por recompensa.
English
As large language models (LLMs) increasingly interact with external tools,
reward modeling for tool use has become a critical yet underexplored area.
Existing reward models, trained primarily on natural language outputs, struggle
to evaluate tool-based reasoning and execution. To quantify this gap, we
introduce FC-RewardBench, the first benchmark designed to systematically assess
reward models' performance in tool-calling scenarios. Our analysis shows that
current reward models often miss key signals of effective tool use,
highlighting the need for domain-specific modeling. To address this, we propose
a training framework for outcome-based reward models using data synthesized
from permissively licensed, open-weight LLMs. We train models ranging from 1.7B
to 14B parameters and evaluate them across seven out-of-domain benchmarks.
These models consistently outperform general-purpose baselines, achieving up to
25\% average improvement in downstream task performance and enabling
data-efficient fine-tuning through reward-guided filtering.