HiMAP-Travel: Pianificazione Multi-Agente Gerarchica per Viaggi a Lungo Orizzonte con Vincoli

Abstract

Gli agenti LLM sequenziali falliscono nella pianificazione a lungo termine con vincoli rigidi come budget e requisiti di diversità. Con il progredire della pianificazione e la crescita del contesto, questi agenti si allontanano dai vincoli globali. Proponiamo HiMAP-Travel, un framework multi-agente gerarchico che suddivide la pianificazione in coordinamento strategico ed esecuzione parallela a livello giornaliero. Un Coordinatore assegna le risorse tra i giorni, mentre gli Esecutori Giornalieri pianificano in parallelo in modo indipendente. Tre meccanismi chiave lo rendono possibile: un monitor transazionale che applica i vincoli di budget e univocità tra gli agenti paralleli, un protocollo di negoziazione che consente agli agenti di rifiutare sotto-obiettivi non fattibili e innescare una ripianificazione, e una singola policy addestrata con GRPO che alimenta tutti gli agenti tramite condizionamento del ruolo. Su TravelPlanner, HiMAP-Travel con Qwen3-8B raggiunge un Final Pass Rate (FPR) di convalida del 52,78% e di test del 52,65%. In un confronto controllato con modello, training e strumenti identici, supera la baseline sequenziale DeepTravel di +8,67 pp. Supera anche ATLAS di +17,65 pp e MTP di +10,0 pp. Sugli scenari multi-turno di FlexTravelBench, raggiunge un FPR del 44,34% (2-turn) e del 37,42% (3-turn) riducendo la latenza di 2,5 volte grazie al parallelismo.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Travel: Pianificazione Multi-Agente Gerarchica per Viaggi a Lungo Orizzonte con Vincoli

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Abstract

Support