ChatPaper.aiChatPaper

TourPlanner: Ein wettbewerbsfähiges Konsens-Framework mit beschränkungsgesteuertem Reinforcement Learning für die Reiseplanung

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

January 8, 2026
papers.authors: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong
cs.AI

papers.abstract

Reiseplanung ist ein anspruchsvoller Entscheidungsprozess, der die Synthese vielschichtiger Informationen zur Erstellung von Reiserouten erfordert. Bestehende Ansätze zur Reiseplanung stehen jedoch vor mehreren Herausforderungen: (1) Die Reduzierung von Kandidaten für Points of Interest (POIs) bei gleichzeitiger Aufrechterhaltung einer hohen Recall-Rate; (2) Ein einzelner Reasoning-Pfad schränkt die Erschließungsfähigkeit innerhalb des zulässigen Lösungsraums für die Reiseplanung ein; (3) Die gleichzeitige Optimierung harter und weicher Constraints bleibt eine große Schwierigkeit. Um diese Herausforderungen zu bewältigen, schlagen wir TourPlanner vor, einen umfassenden Rahmen mit Multi-Path-Reasoning und Constraint-gesteuertem Reinforcement Learning. Konkret führen wir zunächst einen Workflow zur personalisierten Recall- und räumlichen Optimierung (PReSO) ein, um einen räumlich optimierten Kandidaten-POI-Satz zu konstruieren. Anschließend schlagen wir Competitive Consensus Chain-of-Thought (CCoT) vor, ein Multi-Path-Reasoning-Paradigma, das die Fähigkeit verbessert, den zulässigen Lösungsraum zu erkunden. Um den Plan weiter zu verfeinern, integrieren wir einen sigmoidbasierten Gating-Mechanismus in die Reinforcement-Learning-Phase, der die Erfüllung weicher Constraints dynamisch priorisiert, sobald harte Constraints erfüllt sind. Experimentelle Ergebnisse auf Reiseplanungs-Benchmarks zeigen, dass TourPlanner state-of-the-art Leistung erzielt und bestehende Methoden sowohl in Bezug auf Machbarkeit als auch Benutzerpräferenz-Abgleich signifikant übertrifft.
English
Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.
PDF103January 31, 2026