ChatPaper.aiChatPaper

ToolRL: 도구 학습에 필요한 것은 보상뿐

ToolRL: Reward is All Tool Learning Needs

April 16, 2025
저자: Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji
cs.AI

초록

현재의 대규모 언어 모델(LLMs)은 도구 사용 능력을 습득하기 위해 지도 미세 조정(SFT)을 거치는 경우가 많습니다. 그러나 SFT는 익숙하지 않거나 복잡한 도구 사용 시나리오로의 일반화에 어려움을 겪습니다. 최근 강화 학습(RL), 특히 R1과 유사한 모델의 발전은 유망한 추론 및 일반화 능력을 보여주었습니다. 그러나 도구 사용을 위한 보상 설계는 독특한 도전 과제를 제시합니다: 다양한 매개변수로 여러 도구가 호출될 수 있으며, 정답 매칭과 같은 거친 보상 신호는 효과적인 학습에 필요한 세밀한 피드백을 제공하지 못합니다. 본 연구에서는 RL 패러다임 내에서 도구 선택 및 적용 작업을 위한 보상 설계에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 다양한 보상 전략을 체계적으로 탐구하며, 그 유형, 규모, 세분성 및 시간적 동역학을 분석합니다. 이러한 통찰을 바탕으로, 도구 사용 작업에 맞춤화된 원칙적인 보상 설계를 제안하고 이를 그룹 상대 정책 최적화(GRPO)를 사용하여 LLMs를 훈련하는 데 적용합니다. 다양한 벤치마크에서의 실험적 평가는 우리의 접근 방식이 견고하고 확장 가능하며 안정적인 훈련을 이끌어내며, 기본 모델 대비 17%, SFT 모델 대비 15%의 성능 향상을 달성함을 보여줍니다. 이러한 결과는 LLMs의 도구 사용 능력과 일반화 성능을 향상시키는 데 있어 신중한 보상 설계의 중요성을 강조합니다. 향후 연구를 촉진하기 위해 모든 코드가 공개되었습니다.
English
Current Large Language Models (LLMs) often undergo supervised fine-tuning (SFT) to acquire tool use capabilities. However, SFT struggles to generalize to unfamiliar or complex tool use scenarios. Recent advancements in reinforcement learning (RL), particularly with R1-like models, have demonstrated promising reasoning and generalization abilities. Yet, reward design for tool use presents unique challenges: multiple tools may be invoked with diverse parameters, and coarse-grained reward signals, such as answer matching, fail to offer the finegrained feedback required for effective learning. In this work, we present the first comprehensive study on reward design for tool selection and application tasks within the RL paradigm. We systematically explore a wide range of reward strategies, analyzing their types, scales, granularity, and temporal dynamics. Building on these insights, we propose a principled reward design tailored for tool use tasks and apply it to train LLMs using Group Relative Policy Optimization (GRPO). Empirical evaluations across diverse benchmarks demonstrate that our approach yields robust, scalable, and stable training, achieving a 17% improvement over base models and a 15% gain over SFT models. These results highlight the critical role of thoughtful reward design in enhancing the tool use capabilities and generalization performance of LLMs. All the codes are released to facilitate future research.

Summary

AI-Generated Summary

PDF412April 22, 2025