HiMAP-Viajes: Planificación Multiagente Jerárquica para Viajes de Largo Horizonte con Restricciones

Resumen

Los agentes de LLM secuenciales fallan en la planificación de horizonte largo con restricciones estrictas como presupuestos y requisitos de diversidad. A medida que avanza la planificación y crece el contexto, estos agentes se desvían de las restricciones globales. Proponemos HiMAP-Travel, un marco jerárquico multiagente que divide la planificación en coordinación estratégica y ejecución paralela a nivel diario. Un Coordinador asigna recursos entre días, mientras que los Ejecutores Diarios planifican de forma independiente en paralelo. Tres mecanismos clave lo hacen posible: un monitor transaccional que aplica restricciones presupuestarias y de unicidad entre agentes paralelos, un protocolo de negociación que permite a los agentes rechazar subobjetivos inviables y activar una replanificación, y una única política entrenada con GRPO que impulsa a todos los agentes mediante condicionamiento por rol. En TravelPlanner, HiMAP-Travel con Qwen3-8B logra una Tasa de Éxito Final (FPR) del 52.78% en validación y 52.65% en prueba. En una comparación controlada con el mismo modelo, entrenamiento y herramientas, supera a la línea base secuencial DeepTravel en +8.67 pp. También supera a ATLAS en +17.65 pp y a MTP en +10.0 pp. En los escenarios multi-turno de FlexTravelBench, alcanza un 44.34% (2-turnos) y 37.42% (3-turnos) de FPR mientras reduce la latencia 2.5 veces mediante paralelización.

English

Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.

HiMAP-Viajes: Planificación Multiagente Jerárquica para Viajes de Largo Horizonte con Restricciones

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Resumen

Support