DeepTravel: Un Marco de Aprendizaje por Refuerzo Agéntico de Extremo a Extremo para Agentes Autónomos de Planificación de Viajes
DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
September 26, 2025
Autores: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu
cs.AI
Resumen
El agente de planificación de viajes (TP, por sus siglas en inglés) ha surgido recientemente como un componente fundamental para interactuar con herramientas y recursos externos en la generación de itinerarios de viaje, garantizando una experiencia de usuario agradable. A pesar de sus ventajas, los estudios existentes dependen de indicaciones manuales y flujos de trabajo fijos del agente, lo que limita la flexibilidad y autonomía del agente TP. Este artículo propone DeepTravel, un marco de aprendizaje por refuerzo agente de extremo a extremo para construir un agente de planificación de viajes autónomo, capaz de planificar de manera autónoma, ejecutar herramientas y reflexionar sobre las respuestas de las herramientas para explorar, verificar y refinar acciones intermedias en razonamientos de múltiples pasos. Para lograrlo, primero construimos un entorno de pruebas robusto almacenando en caché datos de transporte, alojamiento y puntos de interés (POI), facilitando el entrenamiento del agente TP sin estar limitado por las restricciones de las API del mundo real (por ejemplo, salidas inconsistentes). Además, desarrollamos un sistema de modelado de recompensas jerárquico, donde un verificador a nivel de trayectoria primero verifica la viabilidad espacio-temporal y filtra los itinerarios de viaje insatisfactorios, y luego un verificador a nivel de turno valida adicionalmente la consistencia de los detalles del itinerario con las respuestas de las herramientas, permitiendo un servicio de recompensa eficiente y preciso. Finalmente, proponemos el método de aprendizaje por refuerzo aumentado con repetición, que permite al agente TP reproducir periódicamente desde un búfer de experiencias de fallos, emergiendo una notable capacidad agente. Desplegamos el agente TP entrenado en la aplicación DiDi Enterprise Solutions y realizamos evaluaciones exhaustivas en línea y fuera de línea, demostrando que DeepTravel permite que modelos de lenguaje pequeños (por ejemplo, Qwen3 32B) superen significativamente a los modelos de lenguaje de vanguardia existentes, como OpenAI o1, o3 y DeepSeek R1, en tareas de planificación de viajes.
English
Travel planning (TP) agent has recently worked as an emerging building block
to interact with external tools and resources for travel itinerary generation,
ensuring enjoyable user experience. Despite its benefits, existing studies rely
on hand craft prompt and fixed agent workflow, hindering more flexible and
autonomous TP agent. This paper proposes DeepTravel, an end to end agentic
reinforcement learning framework for building autonomous travel planning agent,
capable of autonomously planning, executing tools, and reflecting on tool
responses to explore, verify, and refine intermediate actions in multi step
reasoning. To achieve this, we first construct a robust sandbox environment by
caching transportation, accommodation and POI data, facilitating TP agent
training without being constrained by real world APIs limitations (e.g.,
inconsistent outputs). Moreover, we develop a hierarchical reward modeling
system, where a trajectory level verifier first checks spatiotemporal
feasibility and filters unsatisfied travel itinerary, and then the turn level
verifier further validate itinerary detail consistency with tool responses,
enabling efficient and precise reward service. Finally, we propose the reply
augmented reinforcement learning method that enables TP agent to periodically
replay from a failures experience buffer, emerging notable agentic capacity. We
deploy trained TP agent on DiDi Enterprise Solutions App and conduct
comprehensive online and offline evaluations, demonstrating that DeepTravel
enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing
frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.