HiMAP-Travel: Иерархическое многоагентное планирование для длительных поездок с ограничениями

Аннотация

Последовательно работающие агенты на основе больших языковых моделей (LLM) не справляются с долгосрочным планированием при наличии жестких ограничений, таких как бюджеты и требования к разнообразию. По мере развития плана и роста контекста эти агенты отклоняются от глобальных ограничений. Мы предлагаем HiMAP-Travel — иерархическую мульти-агентную структуру, которая разделяет планирование на стратегическую координацию и параллельное исполнение на уровне дней. Координатор распределяет ресурсы по дням, а исполнители дней планируют независимо и параллельно. Это обеспечивается тремя ключевыми механизмами: транзакционный монитор, обеспечивающий соблюдение бюджетных ограничений и требований уникальности среди параллельных агентов; протокол согласования, позволяющий агентам отклонять невыполнимые подцели и инициировать перепланирование; и единая политика, обученная с помощью GRPO, которая управляет всеми агентами через условное определение ролей. На задаче TravelPlanner, HiMAP-Travel с моделью Qwen3-8B достигает 52.78% Final Pass Rate (FPR) на валидации и 52.65% на тесте. В контролируемом сравнении с идентичной моделью, обучением и инструментами, он превосходит последовательный базовый уровень DeepTravel на +8.67 п.п. Он также превосходит ATLAS на +17.65 п.п. и MTP на +10.0 п.п. На многотуровых сценариях FlexTravelBench он достигает 44.34% FPR (2 тура) и 37.42% FPR (3 тура), одновременно снижая задержку в 2.5 раза за счет параллелизации.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Travel: Иерархическое многоагентное планирование для длительных поездок с ограничениями

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Аннотация

Support