HiMAP-Travel: Hiërarchische Multi-Agent Planning voor Lange-Termijn Geregelde Reis

Samenvatting

Sequentiële LLM-agenten falen bij langetermijnplanning met strikte beperkingen zoals budgetten en diversiteitseisen. Naarmate de planning vordert en de context groeit, wijken deze agenten af van globale beperkingen. Wij stellen HiMAP-Travel voor, een hiërarchisch multi-agent raamwerk dat planning opsplitst in strategische coördinatie en parallelle dagelijkse uitvoering. Een coördinator wijst middelen toe over dagen, terwijl daguitvoerders onafhankelijk en parallel plannen. Drie belangrijke mechanismen maken dit mogelijk: een transactionele monitor die budget- en uniciteitsbeperkingen afdwingt over parallelle agenten, een onderhandelingsprotocol waarmee agenten onhaalbare subdoelen kunnen afwijzen en herplanning kunnen activeren, en een enkel beleid getraind met GRPO dat alle agenten aanstuurt via rolconditionering. Op TravelPlanner behaalt HiMAP-Travel met Qwen3-8B een Final Pass Rate (FPR) van 52,78% op de validatieset en 52,65% op de testset. In een gecontroleerde vergelijking met identiek model, training en tools, presteert het +8,67 procentpunt beter dan de sequentiële DeepTravel-baseline. Het overtreft ook ATLAS met +17,65 procentpunt en MTP met +10,0 procentpunt. Op de multi-turn scenario's van FlexTravelBench behaalt het een FPR van 44,34% (2-turn) en 37,42% (3-turn), terwijl de latentie 2,5x wordt verminderd door parallelisatie.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Travel: Hiërarchische Multi-Agent Planning voor Lange-Termijn Geregelde Reis

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Samenvatting

Support