ChatPaper.aiChatPaper

TourPlanner : Un Cadre de Consensus Compétitif avec Apprentissage par Renforcement à Porte de Contraintes pour la Planification de Voyages

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

January 8, 2026
papers.authors: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong
cs.AI

papers.abstract

La planification de voyage est un processus décisionnel sophistiqué qui nécessite la synthèse d'informations multidimensionnelles pour construire des itinéraires. Cependant, les approches existantes de planification de voyage rencontrent plusieurs défis : (1) La réduction de l'ensemble des points d'intérêt (POI) candidats tout en maintenant un taux de rappel élevé ; (2) Un chemin de raisonnement unique limite la capacité d'exploration de l'espace des solutions réalisables ; (3) L'optimisation simultanée des contraintes rigides et des contraintes souples reste une difficulté majeure. Pour relever ces défis, nous proposons TourPlanner, un cadre complet intégrant un raisonnement multi-chemins et un apprentissage par renforcement à porte de contraintes. Plus précisément, nous introduisons d'abord un workflow d'Optimisation Spatiale et de Rappel Personnalisé (PReSO) pour construire un ensemble de POI candidats spatialement cohérent. Ensuite, nous proposons la Chaîne de Pensée à Consensus Compétitif (CCoT), un paradigme de raisonnement multi-chemins qui améliore la capacité d'exploration de l'espace des solutions réalisables. Pour affiner davantage le plan, nous intégrons un mécanisme de porte sigmoïde dans la phase d'apprentissage par renforcement, qui priorise dynamiquement la satisfaction des contraintes souples uniquement après que les contraintes rigides sont respectées. Les résultats expérimentaux sur des benchmarks de planification de voyage démontrent que TourPlanner atteint des performances de pointe, surpassant significativement les méthodes existantes tant en matière de faisabilité que d'alignement sur les préférences utilisateur.
English
Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.
PDF103January 31, 2026