TourPlanner: Un Marco de Consenso Competitivo con Aprendizaje por Refuerzo de Compuerta por Restricciones para la Planificación de Viajes
TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning
January 8, 2026
Autores: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong
cs.AI
Resumen
La planificación de viajes es un proceso sofisticado de toma de decisiones que requiere sintetizar información multifacética para construir itinerarios. Sin embargo, los enfoques existentes de planificación de viajes enfrentan varios desafíos: (1) Podar los puntos de interés (POIs) candidatos manteniendo una alta tasa de recuperación; (2) Una única ruta de razonamiento restringe la capacidad de exploración dentro del espacio de soluciones factibles para la planificación de viajes; (3) Optimizar simultáneamente las restricciones duras y las restricciones blandas sigue siendo una dificultad significativa. Para abordar estos desafíos, proponemos TourPlanner, un marco integral que presenta razonamiento multipath y aprendizaje por refuerzo con compuerta de restricciones. Específicamente, primero introducimos un flujo de trabajo de Optimización de Recuperación Personalizada y Espacial (PReSO) para construir un conjunto de POIs candidatos con conciencia espacial. Posteriormente, proponemos Cadena de Pensamiento de Consenso Competitivo (CCoT), un paradigma de razonamiento multipath que mejora la capacidad de explorar el espacio de soluciones factibles. Para refinar aún más el plan, integramos un mecanismo de compuerta basado en sigmoide en la etapa de aprendizaje por refuerzo, que prioriza dinámicamente la satisfacción de restricciones blandas solo después de que se cumplen las restricciones duras. Los resultados experimentales en benchmarks de planificación de viajes demuestran que TourPlanner logra un rendimiento de vanguardia, superando significativamente a los métodos existentes tanto en factibilidad como en alineación con las preferencias del usuario.
English
Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.