HiMAP-Travel : Planification Multi-Agent Hiérarchique pour les Voyages à Long Terme avec Contraintes

Résumé

Les agents LLM séquentiels échouent dans la planification à long terme avec des contraintes strictes comme les budgets et les exigences de diversité. Au fur et à mesure que la planification progresse et que le contexte s'étend, ces agents s'éloignent des contraintes globales. Nous proposons HiMAP-Travel, un cadre hiérarchique multi-agents qui divise la planification en une coordination stratégique et une exécution parallèle au niveau des jours. Un Coordinateur alloue les ressources sur les jours, tandis que des Exécuteurs Journaliers planifient indépendamment en parallèle. Trois mécanismes clés permettent cela : un moniteur transactionnel appliquant les contraintes budgétaires et d'unicité entre les agents parallèles, un protocole de négociation permettant aux agents de rejeter des sous-objectifs irréalisables et de déclencher une re-planification, et une politique unique entraînée avec GRPO qui alimente tous les agents via un conditionnement par rôle. Sur TravelPlanner, HiMAP-Travel avec Qwen3-8B atteint un Taux de Réussite Final (FPR) de 52,78% en validation et 52,65% en test. Dans une comparaison contrôlée avec le même modèle, le même entraînement et les mêmes outils, il surpasse la baseline séquentielle DeepTravel de +8,67 points de pourcentage. Il surpasse également ATLAS de +17,65 pp et MTP de +10,0 pp. Sur les scénarios multi-tours de FlexTravelBench, il atteint un FPR de 44,34% (2 tours) et 37,42% (3 tours) tout en réduisant la latence d'un facteur 2,5 grâce au parallélisme.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Travel : Planification Multi-Agent Hiérarchique pour les Voyages à Long Terme avec Contraintes

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Résumé

Support