ChatPaper.aiChatPaper

TourPlanner: Конкурентная консенсусная архитектура с ограничительно-затворным обучением с подкреплением для планирования путешествий

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

January 8, 2026
Авторы: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong
cs.AI

Аннотация

Планирование путешествий представляет собой сложный процесс принятия решений, требующий синтеза многогранной информации для построения маршрутов. Однако существующие подходы к планированию путешествий сталкиваются с рядом проблем: (1) необходимость отбора кандидатов точек интереса (POI) при сохранении высокой полноты охвата; (2) единственный путь рассуждений ограничивает возможности исследования пространства допустимых решений; (3) одновременная оптимизация жёстких и мягких ограничений остаётся серьёзной трудностью. Для решения этих задач мы предлагаем TourPlanner — комплексную框架, использующую многовариантные рассуждения и обучение с подкреплением с ограничивающим механизмом. В частности, мы сначала представляем персонализированный workflow оптимизации полноты и пространственной организации (PReSO) для построения пространственно-осознанного набора кандидатов POI. Затем мы предлагаем конкурентный консенсусный метод цепочки мыслей (CCoT) — парадигму многовариантных рассуждений, повышающую способность исследования пространства допустимых решений. Для дальнейшего улучшения плана мы интегрируем сигмоидный ограничивающий механизм в этап обучения с подкреплением, который динамически расставляет приоритеты удовлетворения мягких ограничений только после выполнения жёстких. Результаты экспериментов на бенчмарках планирования путешествий демонстрируют, что TourPlanner достигает наилучших показателей, значительно превосходя существующие методы как по выполнимости, так и по соответствию пользовательским предпочтениям.
English
Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.
PDF103January 31, 2026