HiMAP-Travel: Planeamento Hierárquico Multi-Agente para Viagens de Longo Horizonte com Restrições

Resumo

Os agentes de LLM sequenciais falham no planejamento de longo horizonte com restrições rígidas, como orçamentos e requisitos de diversidade. À medida que o planejamento avança e o contexto cresce, esses agentes se afastam das restrições globais. Propomos o HiMAP-Travel, uma estrutura hierárquica multiagente que divide o planejamento em coordenação estratégica e execução paralela a nível diário. Um Coordenador aloca recursos entre os dias, enquanto os Executores Diários planejam independentemente em paralelo. Três mecanismos-chave permitem isso: um monitor transacional que aplica restrições orçamentais e de unicidade entre agentes paralelos, um protocolo de negociação que permite aos agentes rejeitar sub-objetivos inviáveis e acionar um replanejamento, e uma única política treinada com GRPO que alimenta todos os agentes por meio de condicionamento de função. No TravelPlanner, o HiMAP-Travel com Qwen3-8B alcança 52,78% de validação e 52,65% de teste na Taxa de Aprovação Final (FPR). Numa comparação controlada com modelo, treinamento e ferramentas idênticos, ele supera a baseline sequencial DeepTravel em +8,67 pp. Também supera o ATLAS em +17,65 pp e o MTP em +10,0 pp. Nos cenários multi-turno do FlexTravelBench, alcança 44,34% (2-turno) e 37,42% (3-turno) de FPR, enquanto reduz a latência em 2,5x através da paralelização.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.