Demystificatie van Reinforcement Learning voor Agenten met Lange-Tijdschaal Hulpmiddelengebruik: Een Uitgebreid Recept
Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe
March 23, 2026
Auteurs: Xixi Wu, Qianguo Sun, Ruiyang Zhang, Chao Song, Junlong Wu, Yiyan Qi, Hong Cheng
cs.AI
Samenvatting
Versterkend leren (RL) is essentieel om grote taalmmodellen (LLM's) te laten evolueren naar autonome agenten die in staat zijn tot planning op lange termijn, maar een praktische aanpak voor het schalen van RL in complexe, multi-turn omgevingen blijft ongrijpbaar. Dit artikel presenteert een systematische empirische studie met behulp van TravelPlanner, een uitdagende testomgeving die gereedschapscoördinatie vereist om veelzijdige beperkingen te vervullen. We ontleden de ontwerpruimte voor agent-gebaseerd RL langs 5 assen: beloningsvorming, modelschaling, datasamenstelling, algoritmekeuze en omgevingsstabiliteit. Onze gecontroleerde experimenten leveren 7 belangrijke inzichten op, bijvoorbeeld: (1) keuzes in beloning en algoritmen zijn schaalafhankelijk, waarbij kleinere modellen profiteren van gefaseerde beloningen en verbeterde exploratie, terwijl grotere modellen efficiënt convergeren met eenvoudigere, directe beloningen; (2) ~1K trainingsvoorbeelden met een gebalanceerde moeilijkheidsgraad vormen een ideaal evenwicht voor zowel in-domein als out-of-domein prestaties; en (3) omgevingsstabiliteit is cruciaal om beleidsdegradatie te voorkomen. Op basis van ons gedistilleerde recept bereiken onze met RL getrainde modellen state-of-the-art prestaties op TravelPlanner, waarbij ze aanzienlijk beter presteren dan toonaangevende LLM's.
English
Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.