Optimización de Políticas Integradas con Herramientas Multiagente
Multi-Agent Tool-Integrated Policy Optimization
October 6, 2025
Autores: Zhanfeng Mo, Xingxuan Li, Yuntao Chen, Lidong Bing
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) dependen cada vez más de la planificación integrada con herramientas de múltiples turnos para tareas intensivas en conocimiento y de razonamiento complejo. Las implementaciones existentes suelen basarse en un solo agente, pero se ven limitadas por la longitud del contexto y las respuestas ruidosas de las herramientas. Una solución natural es adoptar un marco de múltiples agentes con agentes planificadores y trabajadores para gestionar el contexto. Sin embargo, no existen métodos actuales que respalden un entrenamiento posterior efectivo mediante aprendizaje por refuerzo para marcos de múltiples agentes integrados con herramientas. Para abordar esta brecha, proponemos la Optimización de Políticas Integradas con Herramientas de Múltiples Agentes (MATPO, por sus siglas en inglés), que permite entrenar roles distintos (planificador y trabajador) dentro de una única instancia de LLM utilizando indicaciones específicas de roles mediante aprendizaje por refuerzo. MATPO se deriva de un mecanismo de asignación de crédito fundamentado en las ejecuciones del planificador y el trabajador. Este diseño elimina la necesidad de implementar múltiples LLMs, lo que sería intensivo en memoria, mientras preserva los beneficios de la especialización. Los experimentos en GAIA-text, WebWalkerQA y FRAMES muestran que MATPO supera consistentemente los enfoques de un solo agente con una mejora relativa promedio del 18.38% en el rendimiento y exhibe una mayor robustez frente a salidas ruidosas de las herramientas. Nuestros hallazgos destacan la efectividad de unificar múltiples roles de agentes dentro de un solo LLM y proporcionan insights prácticos para un entrenamiento estable y eficiente de aprendizaje por refuerzo en múltiples agentes.
English
Large language models (LLMs) increasingly rely on multi-turn tool-integrated
planning for knowledge-intensive and complex reasoning tasks. Existing
implementations typically rely on a single agent, but they suffer from limited
context length and noisy tool responses. A natural solution is to adopt a
multi-agent framework with planner- and worker-agents to manage context.
However, no existing methods support effective reinforcement learning
post-training of tool-integrated multi-agent frameworks. To address this gap,
we propose Multi-Agent Tool-Integrated Policy Optimization (MATPO), which
enables distinct roles (planner and worker) to be trained within a single LLM
instance using role-specific prompts via reinforcement learning. MATPO is
derived from a principled credit assignment mechanism across planner and worker
rollouts. This design eliminates the need to deploy multiple LLMs, which would
be memory-intensive, while preserving the benefits of specialization.
Experiments on GAIA-text, WebWalkerQA, and FRAMES show that MATPO consistently
outperforms single-agent baselines by an average of 18.38% relative improvement
in performance and exhibits greater robustness to noisy tool outputs. Our
findings highlight the effectiveness of unifying multiple agent roles within a
single LLM and provide practical insights for stable and efficient multi-agent
RL training.