Démystifier l'apprentissage par renforcement pour les agents utilisant des outils sur des horizons temporels longs : une recette complète

Résumé

L'apprentissage par renforcement (RL) est essentiel pour faire évoluer les grands modèles de langage (LLM) en agents autonomes capables de planification à long terme, mais une méthode pratique pour mettre à l'échelle le RL dans des environnements complexes et multi-tours reste insaisissable. Cet article présente une étude empirique systématique utilisant TravelPlanner, un banc d'essai exigeant nécessitant l'orchestration d'outils pour satisfaire des contraintes multidimensionnelles. Nous décomposons l'espace de conception des agents par RL selon 5 axes : le façonnage des récompenses, la mise à l'échelle des modèles, la composition des données, le choix de l'algorithme et la stabilité environnementale. Nos expériences contrôlées produisent 7 enseignements clés, par exemple : (1) les choix de récompense et d'algorithme dépendent de l'échelle, car les modèles plus petits bénéficient de récompenses étagées et d'une exploration améliorée, tandis que les modèles plus grands convergent efficacement avec des récompenses denses plus simples ; (2) ~ 1 000 échantillons d'entraînement avec un mélange équilibré de difficultés constituent un point optimal pour les performances en domaine connu et inconnu ; et (3) la stabilité environnementale est cruciale pour éviter la dégradation de la politique. Sur la base de notre méthode épurée, nos modèles entraînés par RL atteignent des performances de pointe sur TravelPlanner, surpassant significativement les principaux LLM.

English

Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.

Démystifier l'apprentissage par renforcement pour les agents utilisant des outils sur des horizons temporels longs : une recette complète

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Résumé

Support