ToolRL: Beloning is Alles wat Tool Learning Nodig Heeft

Samenvatting

Huidige Large Language Models (LLMs) ondergaan vaak supervised fine-tuning (SFT) om het gebruik van tools te leren. Echter, SFT heeft moeite om te generaliseren naar onbekende of complexe scenario's waarin tools worden gebruikt. Recente vooruitgang in reinforcement learning (RL), met name met R1-achtige modellen, heeft veelbelovende redeneer- en generalisatievaardigheden aangetoond. Toch brengt het ontwerpen van beloningen voor toolgebruik unieke uitdagingen met zich mee: meerdere tools kunnen worden aangeroepen met diverse parameters, en grofkorrelige beloningssignalen, zoals antwoordmatching, bieden niet de fijnmazige feedback die nodig is voor effectief leren. In dit werk presenteren we de eerste uitgebreide studie naar beloningsontwerp voor taken gericht op toolselectie en -toepassing binnen het RL-paradigma. We onderzoeken systematisch een breed scala aan beloningsstrategieën, waarbij we hun typen, schalen, granulariteit en temporele dynamiek analyseren. Op basis van deze inzichten stellen we een principieel beloningsontwerp voor dat is afgestemd op taken rond toolgebruik en passen we dit toe om LLMs te trainen met behulp van Group Relative Policy Optimization (GRPO). Empirische evaluaties over diverse benchmarks tonen aan dat onze aanpak robuuste, schaalbare en stabiele training oplevert, met een verbetering van 17% ten opzichte van basismodellen en een winst van 15% ten opzichte van SFT-modellen. Deze resultaten onderstrepen de cruciale rol van doordacht beloningsontwerp bij het verbeteren van de toolgebruikscapaciteiten en generalisatieprestaties van LLMs. Alle codes worden vrijgegeven om toekomstig onderzoek te faciliteren.

English

Current Large Language Models (LLMs) often undergo supervised fine-tuning (SFT) to acquire tool use capabilities. However, SFT struggles to generalize to unfamiliar or complex tool use scenarios. Recent advancements in reinforcement learning (RL), particularly with R1-like models, have demonstrated promising reasoning and generalization abilities. Yet, reward design for tool use presents unique challenges: multiple tools may be invoked with diverse parameters, and coarse-grained reward signals, such as answer matching, fail to offer the finegrained feedback required for effective learning. In this work, we present the first comprehensive study on reward design for tool selection and application tasks within the RL paradigm. We systematically explore a wide range of reward strategies, analyzing their types, scales, granularity, and temporal dynamics. Building on these insights, we propose a principled reward design tailored for tool use tasks and apply it to train LLMs using Group Relative Policy Optimization (GRPO). Empirical evaluations across diverse benchmarks demonstrate that our approach yields robust, scalable, and stable training, achieving a 17% improvement over base models and a 15% gain over SFT models. These results highlight the critical role of thoughtful reward design in enhancing the tool use capabilities and generalization performance of LLMs. All the codes are released to facilitate future research.

ToolRL: Beloning is Alles wat Tool Learning Nodig Heeft

ToolRL: Reward is All Tool Learning Needs

Samenvatting

Support