Desmitificando el Aprendizaje por Refuerzo para Agentes que Utilizan Herramientas en Horizontes Temporales Extensos: Una Receta Integral

Resumen

El Aprendizaje por Refuerzo (RL) es fundamental para transformar los Modelos de Lenguaje a Gran Escala (LLMs) en agentes autónomos capaces de planificación de largo horizonte, sin embargo, una receta práctica para escalar RL en entornos complejos y de múltiples turnos sigue siendo esquiva. Este artículo presenta un estudio empírico sistemático utilizando TravelPlanner, un banco de pruebas desafiante que requiere la orquestación de herramientas para satisfacer restricciones multifacéticas. Descomponemos el espacio de diseño de RL agéntico en 5 ejes: configuración de recompensas, escalado de modelos, composición de datos, selección de algoritmos y estabilidad ambiental. Nuestros experimentos controlados arrojan 7 conclusiones clave, por ejemplo: (1) las elecciones de recompensa y algoritmo dependen de la escala, ya que los modelos más pequeños se benefician de recompensas escalonadas y una exploración mejorada, mientras que los modelos más grandes convergen eficientemente con recompensas densas más simples, (2) ~1,000 muestras de entrenamiento con una mezcla equilibrada de dificultad marcan un punto óptimo tanto para el rendimiento dentro del dominio como fuera de él, y (3) la estabilidad ambiental es crítica para prevenir la degradación de la política. Basándonos en nuestra receta destilada, nuestros modelos entrenados con RL logran un rendimiento de vanguardia en TravelPlanner, superando significativamente a los principales LLMs.

English

Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.

Desmitificando el Aprendizaje por Refuerzo para Agentes que Utilizan Herramientas en Horizontes Temporales Extensos: Una Receta Integral

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Resumen

Support