DeepTravel: Un Marco de Aprendizaje por Refuerzo Agéntico de Extremo a Extremo para Agentes Autónomos de Planificación de Viajes

Resumen

El agente de planificación de viajes (TP, por sus siglas en inglés) ha surgido recientemente como un componente fundamental para interactuar con herramientas y recursos externos en la generación de itinerarios de viaje, garantizando una experiencia de usuario agradable. A pesar de sus ventajas, los estudios existentes dependen de indicaciones manuales y flujos de trabajo fijos del agente, lo que limita la flexibilidad y autonomía del agente TP. Este artículo propone DeepTravel, un marco de aprendizaje por refuerzo agente de extremo a extremo para construir un agente de planificación de viajes autónomo, capaz de planificar de manera autónoma, ejecutar herramientas y reflexionar sobre las respuestas de las herramientas para explorar, verificar y refinar acciones intermedias en razonamientos de múltiples pasos. Para lograrlo, primero construimos un entorno de pruebas robusto almacenando en caché datos de transporte, alojamiento y puntos de interés (POI), facilitando el entrenamiento del agente TP sin estar limitado por las restricciones de las API del mundo real (por ejemplo, salidas inconsistentes). Además, desarrollamos un sistema de modelado de recompensas jerárquico, donde un verificador a nivel de trayectoria primero verifica la viabilidad espacio-temporal y filtra los itinerarios de viaje insatisfactorios, y luego un verificador a nivel de turno valida adicionalmente la consistencia de los detalles del itinerario con las respuestas de las herramientas, permitiendo un servicio de recompensa eficiente y preciso. Finalmente, proponemos el método de aprendizaje por refuerzo aumentado con repetición, que permite al agente TP reproducir periódicamente desde un búfer de experiencias de fallos, emergiendo una notable capacidad agente. Desplegamos el agente TP entrenado en la aplicación DiDi Enterprise Solutions y realizamos evaluaciones exhaustivas en línea y fuera de línea, demostrando que DeepTravel permite que modelos de lenguaje pequeños (por ejemplo, Qwen3 32B) superen significativamente a los modelos de lenguaje de vanguardia existentes, como OpenAI o1, o3 y DeepSeek R1, en tareas de planificación de viajes.

English

Travel planning (TP) agent has recently worked as an emerging building block to interact with external tools and resources for travel itinerary generation, ensuring enjoyable user experience. Despite its benefits, existing studies rely on hand craft prompt and fixed agent workflow, hindering more flexible and autonomous TP agent. This paper proposes DeepTravel, an end to end agentic reinforcement learning framework for building autonomous travel planning agent, capable of autonomously planning, executing tools, and reflecting on tool responses to explore, verify, and refine intermediate actions in multi step reasoning. To achieve this, we first construct a robust sandbox environment by caching transportation, accommodation and POI data, facilitating TP agent training without being constrained by real world APIs limitations (e.g., inconsistent outputs). Moreover, we develop a hierarchical reward modeling system, where a trajectory level verifier first checks spatiotemporal feasibility and filters unsatisfied travel itinerary, and then the turn level verifier further validate itinerary detail consistency with tool responses, enabling efficient and precise reward service. Finally, we propose the reply augmented reinforcement learning method that enables TP agent to periodically replay from a failures experience buffer, emerging notable agentic capacity. We deploy trained TP agent on DiDi Enterprise Solutions App and conduct comprehensive online and offline evaluations, demonstrating that DeepTravel enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.