TourPlanner: un Framework di Consenso Competitivo con Apprendimento per Rinforzo a Soglia Vincolata per la Pianificazione di Viaggi

Abstract

La pianificazione di viaggi è un sofisticato processo decisionale che richiede la sintesi di informazioni multiformi per costruire itinerari. Tuttavia, gli approcci esistenti affrontano diverse sfide: (1) Ridurre i punti di interesse (POI) candidati mantenendo un alto tasso di recupero; (2) Un singolo percorso di ragionamento limita la capacità di esplorazione dello spazio delle soluzioni fattibili; (3) Ottimizzare simultaneamente vincoli rigidi e vincoli morbidi rimane una difficoltà significativa. Per affrontare queste sfide, proponiamo TourPlanner, un framework completo che utilizza ragionamenti multi-percorso e reinforcement learning con meccanismi di gate basati su vincoli. Nello specifico, introduciamo prima un flusso di lavoro di Ottimizzazione Spaziale e Recupero Personalizzato (PReSO) per costruire un insieme di POI candidati spatialmente consapevoli. Successivamente, proponiamo Competitive Consensus Chain-of-Thought (CCoT), un paradigma di ragionamento multi-percorso che migliora la capacità di esplorare lo spazio delle soluzioni fattibili. Per perfezionare ulteriormente il piano, integriamo un meccanismo di gate basato sulla funzione sigmoide nella fase di reinforcement learning, che priorizza dinamicamente la soddisfazione dei vincoli morbidi solo dopo che i vincoli rigidi sono stati soddisfatti. I risultati sperimentali su benchmark di pianificazione di viaggi dimostrano che TourPlanner raggiunge prestazioni all'avanguardia, superando significativamente i metodi esistenti sia nella fattibilità che nell'allineamento alle preferenze dell'utente.

English

Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.

TourPlanner: un Framework di Consenso Competitivo con Apprendimento per Rinforzo a Soglia Vincolata per la Pianificazione di Viaggi

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

Abstract

Support