MPO: Potenciando Agentes de LLM con Optimización de Planes Meta
MPO: Boosting LLM Agents with Meta Plan Optimization
March 4, 2025
Autores: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes basados en LLMs aborden con éxito tareas de planificación interactiva. Sin embargo, a pesar de sus logros, los enfoques existentes suelen sufrir de alucinaciones en la planificación y requieren reentrenamiento para cada nuevo agente. Para abordar estos desafíos, proponemos el marco de Optimización de Meta Planes (MPO, por sus siglas en inglés), que mejora las capacidades de planificación de los agentes al incorporar directamente orientación explícita. A diferencia de métodos anteriores que dependen de conocimiento complejo, los cuales requieren un esfuerzo humano significativo o carecen de garantía de calidad, MPO aprovecha orientación general de alto nivel a través de meta planes para asistir en la planificación del agente y permite la optimización continua de los meta planes basada en la retroalimentación de la ejecución de tareas del agente. Nuestros experimentos, realizados en dos tareas representativas, demuestran que MPO supera significativamente a los enfoques basales existentes. Además, nuestro análisis indica que MPO ofrece una solución plug-and-play que mejora tanto la eficiencia en la finalización de tareas como las capacidades de generalización en escenarios previamente no vistos.
English
Recent advancements in large language models (LLMs) have enabled LLM-based
agents to successfully tackle interactive planning tasks. However, despite
their successes, existing approaches often suffer from planning hallucinations
and require retraining for each new agent. To address these challenges, we
propose the Meta Plan Optimization (MPO) framework, which enhances agent
planning capabilities by directly incorporating explicit guidance. Unlike
previous methods that rely on complex knowledge, which either require
significant human effort or lack quality assurance, MPO leverages high-level
general guidance through meta plans to assist agent planning and enables
continuous optimization of the meta plans based on feedback from the agent's
task execution. Our experiments conducted on two representative tasks
demonstrate that MPO significantly outperforms existing baselines. Moreover,
our analysis indicates that MPO provides a plug-and-play solution that enhances
both task completion efficiency and generalization capabilities in previous
unseen scenarios.Summary
AI-Generated Summary