Entmystifizierung des Reinforcement Learning für Werkzeug nutzende Agenten mit langem Planungshorizont: Ein umfassendes Rezept

Zusammenfassung

Reinforcement Learning (RL) ist entscheidend, um große Sprachmodelle (LLMs) zu autonomen Agenten zu entwickeln, die langfristige Planung beherrschen, doch eine praktische Methode zur Skalierung von RL in komplexen, mehrstufigen Umgebungen bleibt schwer fassbar. Diese Arbeit präsentiert eine systematische empirische Studie mit TravelPlanner, einer anspruchsvollen Testplattform, die das Orchestrieren von Werkzeugen erfordert, um vielfältige Randbedingungen zu erfüllen. Wir gliedern den agentenbasierten RL-Designraum entlang fünf Achsen: Reward-Shaping, Modellskalierung, Datenzusammensetzung, Algorithmusauswahl und Umweltstabilität. Unsere kontrollierten Experimente ergeben sieben zentrale Erkenntnisse, z.B.: (1) Die Wahl von Belohnungsfunktion und Algorithmus ist skalenabhängig, da kleinere Modelle von gestaffelten Belohnungen und verstärkter Exploration profitieren, während größere Modelle effizient mit einfacheren, dichten Belohnungen konvergieren; (2) ~1.000 Trainingsbeispiele mit einer ausgewogenen Mischung an Schwierigkeitsgraden markieren einen Sweet Spot für sowohl domäneninterne als auch domänenexterne Leistung; und (3) Umweltstabilität ist kritisch, um eine Verschlechterung der Policy zu verhindern. Basierend auf unserer destillierten Methode erreichen unsere RL-trainierten Modelle state-of-the-art Leistung auf TravelPlanner und übertreffen führende LLMs deutlich.

English

Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.

Entmystifizierung des Reinforcement Learning für Werkzeug nutzende Agenten mit langem Planungshorizont: Ein umfassendes Rezept

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Zusammenfassung

Support