Demistificare l’Apprendimento per Rinforzo per Agenti con Uso di Strumenti a Lungo Orizzonte: Una Ricetta Completa

Abstract

L’apprendimento per rinforzo (Reinforcement Learning, RL) è fondamentale per far evolvere i Large Language Model (LLM) in agenti autonomi capaci di pianificazione a lungo termine, tuttavia una metodologia pratica per scalare l’RL in ambienti complessi e multi-turno rimane elusiva. Questo articolo presenta uno studio empirico sistematico utilizzando TravelPlanner, un banco di prova impegnativo che richiede l’orchestrazione di strumenti per soddisfare vincoli multifaccettati. Scomponiamo lo spazio di progettazione degli agenti RL lungo 5 assi: modellazione della ricompensa, scalabilità del modello, composizione dei dati, selezione dell’algoritmo e stabilità ambientale. I nostri esperimenti controllati producono 7 risultati chiave, ad esempio: (1) le scelte relative a ricompensa e algoritmo dipendono dalla scala, poiché modelli più piccoli beneficiano di ricompense graduate ed esplorazione potenziata, mentre modelli più grandi convergono efficientemente con ricompense dense più semplici; (2) ~1000 campioni di addestramento con una miscela bilanciata di difficoltà rappresentano un punto ottimale per le prestazioni sia in-dominio che out-of-dominio; e (3) la stabilità ambientale è critica per prevenire il degrado della politica. Basandoci sulla metodologia distillata, i nostri modelli addestrati con RL raggiungono prestazioni all’avanguardia su TravelPlanner, superando significativamente i principali LLM.

English

Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.

Demistificare l’Apprendimento per Rinforzo per Agenti con Uso di Strumenti a Lungo Orizzonte: Una Ricetta Completa

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Abstract

Support