HiMAP-Travel: Hierarchische Multi-Agenten-Planung für langfristige, eingeschränkte Reisen

Zusammenfassung

Sequenzielle LLM-Agenten scheitern bei langfristiger Planung mit harten Einschränkungen wie Budgets und Diversitätsanforderungen. Mit fortschreitender Planung und wachsendem Kontext entfernen sich diese Agenten von globalen Zwängen. Wir schlagen HiMAP-Travel vor, ein hierarchisches Multi-Agenten-Framework, das die Planung in strategische Koordination und parallele tagesbezogene Ausführung aufteilt. Ein Koordinator weist Ressourcen tageweise zu, während Tages-Ausführungsagenten unabhängig und parallel planen. Drei Schlüsselmechanismen ermöglichen dies: ein transaktionaler Monitor, der Budget- und Eindeutigkeitsbedingungen über parallele Agenten hinweg durchsetzt, ein Aushandlungsprotokoll, das es Agenten ermöglicht, nicht umsetzbare Teilziele abzulehnen und Neuplanung auszulösen, sowie eine einzige, mit GRPO trainierte Policy, die alle Agenten durch Rollenkonditionierung antreibt. Auf TravelPlanner erreicht HiMAP-Travel mit Qwen3-8B eine Final Pass Rate (FPR) von 52,78 % (Validierung) und 52,65 % (Test). In einem kontrollierten Vergleich mit identischem Modell, Training und Werkzeugen übertrifft es den sequenziellen DeepTravel-Baseline um +8,67 Prozentpunkte. Es übertrifft ebenfalls ATLAS um +17,65 Prozentpunkte und MTP um +10,0 Prozentpunkte. In Multi-Turn-Szenarien von FlexTravelBench erreicht es eine FPR von 44,34 % (2-Turn) und 37,42 % (3-Turn) und reduziert die Latenz durch Parallelisierung um das 2,5-fache.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Travel: Hierarchische Multi-Agenten-Planung für langfristige, eingeschränkte Reisen

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Zusammenfassung

Support