ChatPaper.aiChatPaper

ToolRM: Модели вознаграждения результатов для крупных языковых моделей с функцией вызова инструментов

ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

September 15, 2025
Авторы: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI

Аннотация

По мере того как крупные языковые модели (LLM) всё чаще взаимодействуют с внешними инструментами, моделирование вознаграждений за использование инструментов становится важной, но недостаточно изученной областью. Существующие модели вознаграждений, обученные преимущественно на естественно-языковых данных, испытывают трудности с оценкой рассуждений и выполнения, связанных с использованием инструментов. Чтобы количественно оценить этот разрыв, мы представляем FC-RewardBench — первый бенчмарк, разработанный для систематической оценки производительности моделей вознаграждений в сценариях вызова инструментов. Наш анализ показывает, что текущие модели вознаграждений часто упускают ключевые сигналы эффективного использования инструментов, подчеркивая необходимость специализированного моделирования. Для решения этой проблемы мы предлагаем фреймворк обучения моделей вознаграждений, основанных на результатах, с использованием данных, синтезированных из LLM с открытыми весами и разрешительными лицензиями. Мы обучаем модели с числом параметров от 1,7 млрд до 14 млрд и оцениваем их на семи внешних бенчмарках. Эти модели стабильно превосходят универсальные базовые подходы, достигая до 25\% среднего улучшения в производительности на последующих задачах и обеспечивая эффективную тонкую настройку с помощью фильтрации, управляемой вознаграждениями.
English
As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.
PDF22September 17, 2025