TourPlanner: Uma Estrutura de Consenso Competitiva com Aprendizagem por Reforço com Portas de Restrição para Planejamento de Viagens

Resumo

O planejamento de viagens é um processo sofisticado de tomada de decisão que requer a síntese de informações multifacetadas para construir itinerários. No entanto, as abordagens existentes de planejamento de viagens enfrentam vários desafios: (1) A poda de pontos de interesse (POIs) candidatos, mantendo uma alta taxa de recuperação; (2) Um único caminho de raciocínio restringe a capacidade de exploração dentro do espaço de soluções viáveis para o planejamento de viagens; (3) A otimização simultânea de restrições rígidas e restrições flexíveis permanece uma dificuldade significativa. Para enfrentar esses desafios, propomos o TourPlanner, uma estrutura abrangente que apresenta raciocínio de múltiplos caminhos e aprendizado por reforço com portas de restrição. Especificamente, introduzimos primeiro um fluxo de trabalho de Otimização de Recuperação Personalizada e Espacial (PReSO) para construir um conjunto de POIs candidatos com consciência espacial. Posteriormente, propomos a Cadeia de Pensamento de Consenso Competitivo (CCoT), um paradigma de raciocínio de múltiplos caminhos que melhora a capacidade de explorar o espaço de soluções viáveis. Para refinar ainda mais o plano, integramos um mecanismo de porta baseado em sigmoide na fase de aprendizado por reforço, que prioriza dinamicamente a satisfação de restrições flexíveis somente após o cumprimento das restrições rígidas. Resultados experimentais em benchmarks de planejamento de viagens demonstram que o TourPlanner alcança um desempenho de ponta, superando significativamente os métodos existentes tanto em viabilidade quanto no alinhamento com as preferências do usuário.

English

Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.