ChatPaper.aiChatPaper

ToolRM: 도구 호출 대형 언어 모델을 위한 결과 보상 모델

ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

September 15, 2025
저자: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi
cs.AI

초록

대형 언어 모델(LLM)이 외부 도구와의 상호작용을 점점 더 많이 수행함에 따라, 도구 사용에 대한 보상 모델링은 중요하면서도 충분히 탐구되지 않은 분야로 부상했습니다. 자연어 출력을 주로 학습한 기존의 보상 모델들은 도구 기반 추론과 실행을 평가하는 데 어려움을 겪고 있습니다. 이러한 격차를 정량화하기 위해, 우리는 도구 호출 시나리오에서 보상 모델의 성능을 체계적으로 평가하기 위한 첫 번째 벤치마크인 FC-RewardBench를 소개합니다. 우리의 분석은 현재의 보상 모델들이 효과적인 도구 사용의 핵심 신호를 놓치는 경우가 많음을 보여주며, 이는 도메인 특화 모델링의 필요성을 강조합니다. 이를 해결하기 위해, 우리는 허가된 오픈 웨이트 LLM에서 합성된 데이터를 사용하여 결과 기반 보상 모델을 위한 훈련 프레임워크를 제안합니다. 1.7B에서 14B 파라미터에 이르는 다양한 모델을 훈련하고, 이를 7개의 도메인 외 벤치마크에서 평가합니다. 이러한 모델들은 일반 목적의 베이스라인을 꾸준히 능가하며, 다운스트림 작업 성능에서 최대 25%의 평균 개선을 달성하고, 보안 가이드 필터링을 통해 데이터 효율적인 미세 조정을 가능하게 합니다.
English
As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.
PDF22September 17, 2025