ToolRL: Beloning is Alles wat Tool Learning Nodig Heeft
ToolRL: Reward is All Tool Learning Needs
April 16, 2025
Auteurs: Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji
cs.AI
Samenvatting
Huidige Large Language Models (LLMs) ondergaan vaak supervised fine-tuning (SFT) om het gebruik van tools te leren. Echter, SFT heeft moeite om te generaliseren naar onbekende of complexe scenario's waarin tools worden gebruikt. Recente vooruitgang in reinforcement learning (RL), met name met R1-achtige modellen, heeft veelbelovende redeneer- en generalisatievaardigheden aangetoond. Toch brengt het ontwerpen van beloningen voor toolgebruik unieke uitdagingen met zich mee: meerdere tools kunnen worden aangeroepen met diverse parameters, en grofkorrelige beloningssignalen, zoals antwoordmatching, bieden niet de fijnmazige feedback die nodig is voor effectief leren. In dit werk presenteren we de eerste uitgebreide studie naar beloningsontwerp voor taken gericht op toolselectie en -toepassing binnen het RL-paradigma. We onderzoeken systematisch een breed scala aan beloningsstrategieën, waarbij we hun typen, schalen, granulariteit en temporele dynamiek analyseren. Op basis van deze inzichten stellen we een principieel beloningsontwerp voor dat is afgestemd op taken rond toolgebruik en passen we dit toe om LLMs te trainen met behulp van Group Relative Policy Optimization (GRPO). Empirische evaluaties over diverse benchmarks tonen aan dat onze aanpak robuuste, schaalbare en stabiele training oplevert, met een verbetering van 17% ten opzichte van basismodellen en een winst van 15% ten opzichte van SFT-modellen. Deze resultaten onderstrepen de cruciale rol van doordacht beloningsontwerp bij het verbeteren van de toolgebruikscapaciteiten en generalisatieprestaties van LLMs. Alle codes worden vrijgegeven om toekomstig onderzoek te faciliteren.
English
Current Large Language Models (LLMs) often undergo supervised fine-tuning
(SFT) to acquire tool use capabilities. However, SFT struggles to generalize to
unfamiliar or complex tool use scenarios. Recent advancements in reinforcement
learning (RL), particularly with R1-like models, have demonstrated promising
reasoning and generalization abilities. Yet, reward design for tool use
presents unique challenges: multiple tools may be invoked with diverse
parameters, and coarse-grained reward signals, such as answer matching, fail to
offer the finegrained feedback required for effective learning. In this work,
we present the first comprehensive study on reward design for tool selection
and application tasks within the RL paradigm. We systematically explore a wide
range of reward strategies, analyzing their types, scales, granularity, and
temporal dynamics. Building on these insights, we propose a principled reward
design tailored for tool use tasks and apply it to train LLMs using Group
Relative Policy Optimization (GRPO). Empirical evaluations across diverse
benchmarks demonstrate that our approach yields robust, scalable, and stable
training, achieving a 17% improvement over base models and a 15% gain over SFT
models. These results highlight the critical role of thoughtful reward design
in enhancing the tool use capabilities and generalization performance of LLMs.
All the codes are released to facilitate future research.Summary
AI-Generated Summary