DeepTravel: 自律的な旅行計画エージェントのためのエンドツーエンド強化学習フレームワーク
DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
September 26, 2025
著者: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu
cs.AI
要旨
旅行計画(TP)エージェントは、最近、外部ツールやリソースと連携して旅行スケジュールを生成し、ユーザー体験を向上させるための新たな構成要素として注目されています。しかし、既存の研究は手作りのプロンプトや固定されたエージェントワークフローに依存しており、より柔軟で自律的なTPエージェントの実現を妨げています。本論文では、DeepTravelを提案します。これは、自律的な旅行計画エージェントを構築するためのエンドツーエンドの強化学習フレームワークであり、多段階の推論において中間アクションを探索、検証、洗練するために、自律的に計画を立て、ツールを実行し、ツールの応答を反映することができます。これを実現するために、まず、交通機関、宿泊施設、POIデータをキャッシュすることで、現実世界のAPIの制約(例:一貫性のない出力)に縛られずにTPエージェントを訓練するための堅牢なサンドボックス環境を構築します。さらに、階層的な報酬モデリングシステムを開発し、軌跡レベル検証器が時空間的な実現可能性をチェックし、不満足な旅行スケジュールをフィルタリングし、その後、ターンレベル検証器がツールの応答とスケジュールの詳細の一貫性をさらに検証することで、効率的かつ正確な報酬サービスを実現します。最後に、TPエージェントが定期的に失敗経験バッファからリプレイすることを可能にするリプライ拡張強化学習法を提案し、顕著なエージェント能力を発揮させます。訓練されたTPエージェントをDiDi Enterprise Solutionsアプリに展開し、包括的なオンラインおよびオフライン評価を実施した結果、DeepTravelが小型のLLM(例:Qwen3 32B)を既存の最先端LLM(例:OpenAI o1、o3、DeepSeek R1)を大幅に上回る性能を示すことを実証しました。
English
Travel planning (TP) agent has recently worked as an emerging building block
to interact with external tools and resources for travel itinerary generation,
ensuring enjoyable user experience. Despite its benefits, existing studies rely
on hand craft prompt and fixed agent workflow, hindering more flexible and
autonomous TP agent. This paper proposes DeepTravel, an end to end agentic
reinforcement learning framework for building autonomous travel planning agent,
capable of autonomously planning, executing tools, and reflecting on tool
responses to explore, verify, and refine intermediate actions in multi step
reasoning. To achieve this, we first construct a robust sandbox environment by
caching transportation, accommodation and POI data, facilitating TP agent
training without being constrained by real world APIs limitations (e.g.,
inconsistent outputs). Moreover, we develop a hierarchical reward modeling
system, where a trajectory level verifier first checks spatiotemporal
feasibility and filters unsatisfied travel itinerary, and then the turn level
verifier further validate itinerary detail consistency with tool responses,
enabling efficient and precise reward service. Finally, we propose the reply
augmented reinforcement learning method that enables TP agent to periodically
replay from a failures experience buffer, emerging notable agentic capacity. We
deploy trained TP agent on DiDi Enterprise Solutions App and conduct
comprehensive online and offline evaluations, demonstrating that DeepTravel
enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing
frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.