ChatPaper.aiChatPaper

TourPlanner: 제약 조건 게이트 강화 학습을 활용한 경쟁적 합의 기반 여행 계획 프레임워크

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

January 8, 2026
저자: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong
cs.AI

초록

여행 계획 수립은 다양한 정보를 종합하여 일정을 구성하는 복잡한 의사결정 과정입니다. 그러나 기존 여행 계획 방법론은 다음과 같은 과제에 직면해 있습니다: (1) 높은 재현율을 유지하면서 후보 관심 지점(POI)을 선별하는 문제; (2) 단일 추론 경로가 여행 계획의 실현 가능한 솔루션 공간 탐색 능력을 제한하는 점; (3) 강제 제약 조건과 비강제 제약 조건의 동시 최적화가 여전히 큰 어려움으로 남아 있는 점. 이러한 문제를 해결하기 위해 본 연구에서는 다중 경로 추론과 제약 조건 게이트 강화 학습을 특징으로 하는 종합 프레임워크인 TourPlanner를 제안합니다. 구체적으로, 먼저 공간 인식형 후보 POI 집합을 구축하기 위한 개인화 재현율 및 공간 최적화(PReSO) 워크플로를 도입합니다. 이후 실현 가능한 솔루션 공간 탐색 능력을 향상시키는 다중 경로 추론 패러다임인 경쟁적 합의 사고 연쇄(CCoT)를 제안합니다. 계획을 더욱 정제하기 위해 강화 학습 단계에 시그모이드 기반 게이트 메커니즘을 통합하여 강제 제약 조건이 충족된 후에만 비강제 제약 조건 충족을 동적으로 우선시합니다. 여행 계획 벤치마크에 대한 실험 결과, TourPlanner가 최첨단 성능을 달성하며 실현 가능성과 사용자 선호도 일치 측면에서 기존 방법을 크게 능가함을 입증했습니다.
English
Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.
PDF103January 31, 2026