ChatPaper.aiChatPaper

ToolRM : Modèles de Récompense par Résultat pour les Grands Modèles de Langage Appelant des Outils

ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

September 15, 2025
papers.authors: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI

papers.abstract

Alors que les grands modèles de langage (LLM) interagissent de plus en plus avec des outils externes, la modélisation des récompenses pour l'utilisation d'outils est devenue un domaine critique mais encore peu exploré. Les modèles de récompense existants, principalement entraînés sur des sorties en langage naturel, peinent à évaluer le raisonnement et l'exécution basés sur des outils. Pour quantifier cet écart, nous introduisons FC-RewardBench, le premier benchmark conçu pour évaluer systématiquement la performance des modèles de récompense dans des scénarios d'appel d'outils. Notre analyse montre que les modèles de récompense actuels manquent souvent les signaux clés d'une utilisation efficace des outils, soulignant la nécessité d'une modélisation spécifique au domaine. Pour remédier à cela, nous proposons un cadre d'entraînement pour des modèles de récompense basés sur les résultats, utilisant des données synthétisées à partir de LLM open-weight sous licence permissive. Nous entraînons des modèles allant de 1,7B à 14B paramètres et les évaluons sur sept benchmarks hors domaine. Ces modèles surpassent systématiquement les bases de référence généralistes, atteignant jusqu'à 25 % d'amélioration moyenne dans la performance des tâches en aval et permettant un fine-tuning efficace des données grâce au filtrage guidé par les récompenses.
English
As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.
PDF22September 17, 2025