DeepTravel: Ein End-to-End-Agentenframework für bestärkendes Lernen zur autonomen Reiseplanung
DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
September 26, 2025
papers.authors: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu
cs.AI
papers.abstract
Der Reiseplanungs-Agent (Travel Planning Agent, TP) hat sich kürzlich als ein aufstrebendes Bauelement etabliert, das mit externen Tools und Ressourcen interagiert, um Reiseitinerare zu erstellen und dabei ein angenehmes Benutzererlebnis zu gewährleisten. Trotz seiner Vorteile stützen sich bestehende Studien auf manuell erstellte Prompts und feste Agenten-Workflows, was die Entwicklung eines flexibleren und autonomen TP-Agenten behindert. Dieses Papier stellt DeepTravel vor, ein end-to-end agentisches Reinforcement-Learning-Framework zur Entwicklung eines autonomen Reiseplanungs-Agenten, der in der Lage ist, autonom zu planen, Tools auszuführen und auf Tool-Antworten zu reflektieren, um Zwischenaktionen in mehrstufigen Denkprozessen zu erkunden, zu überprüfen und zu verfeinern. Um dies zu erreichen, konstruieren wir zunächst eine robuste Sandbox-Umgebung, indem wir Daten zu Transport, Unterkünften und POIs zwischenspeichern, was das Training des TP-Agenten erleichtert, ohne durch die Einschränkungen realer APIs (z. B. inkonsistente Ausgaben) behindert zu werden. Darüber hinaus entwickeln wir ein hierarchisches Belohnungsmodellierungssystem, bei dem ein Trajektorien-Level-Verifizierer zunächst die raumzeitliche Machbarkeit überprüft und unbefriedigende Reiseitinerare filtert, und dann ein Turn-Level-Verifizierer die Konsistenz der Itinerardetails mit den Tool-Antworten weiter validiert, wodurch ein effizienter und präziser Belohnungsdienst ermöglicht wird. Schließlich schlagen wir die Reply-Augmented Reinforcement-Learning-Methode vor, die es dem TP-Agenten ermöglicht, periodisch aus einem Fehlererfahrungspuffer nachzuspielen, was eine bemerkenswerte agentische Kapazität hervorbringt. Wir setzen den trainierten TP-Agenten in der DiDi Enterprise Solutions App ein und führen umfassende Online- und Offline-Evaluierungen durch, die zeigen, dass DeepTravel es kleinen LLMs (z. B. Qwen3 32B) ermöglicht, bestehende Spitzen-LLMs wie OpenAI o1, o3 und DeepSeek R1 in Reiseplanungsaufgaben deutlich zu übertreffen.
English
Travel planning (TP) agent has recently worked as an emerging building block
to interact with external tools and resources for travel itinerary generation,
ensuring enjoyable user experience. Despite its benefits, existing studies rely
on hand craft prompt and fixed agent workflow, hindering more flexible and
autonomous TP agent. This paper proposes DeepTravel, an end to end agentic
reinforcement learning framework for building autonomous travel planning agent,
capable of autonomously planning, executing tools, and reflecting on tool
responses to explore, verify, and refine intermediate actions in multi step
reasoning. To achieve this, we first construct a robust sandbox environment by
caching transportation, accommodation and POI data, facilitating TP agent
training without being constrained by real world APIs limitations (e.g.,
inconsistent outputs). Moreover, we develop a hierarchical reward modeling
system, where a trajectory level verifier first checks spatiotemporal
feasibility and filters unsatisfied travel itinerary, and then the turn level
verifier further validate itinerary detail consistency with tool responses,
enabling efficient and precise reward service. Finally, we propose the reply
augmented reinforcement learning method that enables TP agent to periodically
replay from a failures experience buffer, emerging notable agentic capacity. We
deploy trained TP agent on DiDi Enterprise Solutions App and conduct
comprehensive online and offline evaluations, demonstrating that DeepTravel
enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing
frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.