Desmistificando o Aprendizado por Reforço para Agentes de Uso de Ferramentas em Horizontes Longos: Uma Receita Abrangente

Resumo

O Aprendizado por Reforço (AR) é essencial para evoluir os Grandes Modelos de Linguagem (LLMs) em agentes autônomos capazes de planejamento de longo horizonte, contudo, uma receita prática para escalar o AR em ambientes complexos e multi-turnos permanece indefinida. Este artigo apresenta um estudo empírico sistemático utilizando o TravelPlanner, um ambiente de teste desafiador que requer orquestração de ferramentas para satisfazer restrições multifacetadas. Decompomos o espaço de projeto do AR agente ao longo de 5 eixos: modelagem de recompensa, escalonamento de modelos, composição de dados, seleção de algoritmo e estabilidade ambiental. Nossos experimentos controlados resultam em 7 conclusões principais, por exemplo: (1) as escolhas de recompensa e algoritmo são dependentes da escala, pois modelos menores beneficiam-se de recompensas em estágios e exploração aprimorada, enquanto modelos maiores convergem eficientemente com recompensas densas mais simples; (2) ~1.000 amostras de treinamento com uma mistura balanceada de dificuldade representam um ponto ótimo para desempenho tanto dentro quanto fora do domínio; e (3) a estabilidade ambiental é crítica para evitar a degradação da política. Com base em nossa receita destilada, nossos modelos treinados com AR alcançam desempenho de ponta no TravelPlanner, superando significativamente os principais LLMs.

English

Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.