DeepTravel: Ein End-to-End-Agentenframework für bestärkendes Lernen zur autonomen Reiseplanung

papers.abstract

Der Reiseplanungs-Agent (Travel Planning Agent, TP) hat sich kürzlich als ein aufstrebendes Bauelement etabliert, das mit externen Tools und Ressourcen interagiert, um Reiseitinerare zu erstellen und dabei ein angenehmes Benutzererlebnis zu gewährleisten. Trotz seiner Vorteile stützen sich bestehende Studien auf manuell erstellte Prompts und feste Agenten-Workflows, was die Entwicklung eines flexibleren und autonomen TP-Agenten behindert. Dieses Papier stellt DeepTravel vor, ein end-to-end agentisches Reinforcement-Learning-Framework zur Entwicklung eines autonomen Reiseplanungs-Agenten, der in der Lage ist, autonom zu planen, Tools auszuführen und auf Tool-Antworten zu reflektieren, um Zwischenaktionen in mehrstufigen Denkprozessen zu erkunden, zu überprüfen und zu verfeinern. Um dies zu erreichen, konstruieren wir zunächst eine robuste Sandbox-Umgebung, indem wir Daten zu Transport, Unterkünften und POIs zwischenspeichern, was das Training des TP-Agenten erleichtert, ohne durch die Einschränkungen realer APIs (z. B. inkonsistente Ausgaben) behindert zu werden. Darüber hinaus entwickeln wir ein hierarchisches Belohnungsmodellierungssystem, bei dem ein Trajektorien-Level-Verifizierer zunächst die raumzeitliche Machbarkeit überprüft und unbefriedigende Reiseitinerare filtert, und dann ein Turn-Level-Verifizierer die Konsistenz der Itinerardetails mit den Tool-Antworten weiter validiert, wodurch ein effizienter und präziser Belohnungsdienst ermöglicht wird. Schließlich schlagen wir die Reply-Augmented Reinforcement-Learning-Methode vor, die es dem TP-Agenten ermöglicht, periodisch aus einem Fehlererfahrungspuffer nachzuspielen, was eine bemerkenswerte agentische Kapazität hervorbringt. Wir setzen den trainierten TP-Agenten in der DiDi Enterprise Solutions App ein und führen umfassende Online- und Offline-Evaluierungen durch, die zeigen, dass DeepTravel es kleinen LLMs (z. B. Qwen3 32B) ermöglicht, bestehende Spitzen-LLMs wie OpenAI o1, o3 und DeepSeek R1 in Reiseplanungsaufgaben deutlich zu übertreffen.

English

Travel planning (TP) agent has recently worked as an emerging building block to interact with external tools and resources for travel itinerary generation, ensuring enjoyable user experience. Despite its benefits, existing studies rely on hand craft prompt and fixed agent workflow, hindering more flexible and autonomous TP agent. This paper proposes DeepTravel, an end to end agentic reinforcement learning framework for building autonomous travel planning agent, capable of autonomously planning, executing tools, and reflecting on tool responses to explore, verify, and refine intermediate actions in multi step reasoning. To achieve this, we first construct a robust sandbox environment by caching transportation, accommodation and POI data, facilitating TP agent training without being constrained by real world APIs limitations (e.g., inconsistent outputs). Moreover, we develop a hierarchical reward modeling system, where a trajectory level verifier first checks spatiotemporal feasibility and filters unsatisfied travel itinerary, and then the turn level verifier further validate itinerary detail consistency with tool responses, enabling efficient and precise reward service. Finally, we propose the reply augmented reinforcement learning method that enables TP agent to periodically replay from a failures experience buffer, emerging notable agentic capacity. We deploy trained TP agent on DiDi Enterprise Solutions App and conduct comprehensive online and offline evaluations, demonstrating that DeepTravel enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.

DeepTravel: Ein End-to-End-Agentenframework für bestärkendes Lernen zur autonomen Reiseplanung

DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

papers.abstract

Support