MPO: Potenciando Agentes de LLM con Optimización de Planes Meta

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes basados en LLMs aborden con éxito tareas de planificación interactiva. Sin embargo, a pesar de sus logros, los enfoques existentes suelen sufrir de alucinaciones en la planificación y requieren reentrenamiento para cada nuevo agente. Para abordar estos desafíos, proponemos el marco de Optimización de Meta Planes (MPO, por sus siglas en inglés), que mejora las capacidades de planificación de los agentes al incorporar directamente orientación explícita. A diferencia de métodos anteriores que dependen de conocimiento complejo, los cuales requieren un esfuerzo humano significativo o carecen de garantía de calidad, MPO aprovecha orientación general de alto nivel a través de meta planes para asistir en la planificación del agente y permite la optimización continua de los meta planes basada en la retroalimentación de la ejecución de tareas del agente. Nuestros experimentos, realizados en dos tareas representativas, demuestran que MPO supera significativamente a los enfoques basales existentes. Además, nuestro análisis indica que MPO ofrece una solución plug-and-play que mejora tanto la eficiencia en la finalización de tareas como las capacidades de generalización en escenarios previamente no vistos.

English

Recent advancements in large language models (LLMs) have enabled LLM-based agents to successfully tackle interactive planning tasks. However, despite their successes, existing approaches often suffer from planning hallucinations and require retraining for each new agent. To address these challenges, we propose the Meta Plan Optimization (MPO) framework, which enhances agent planning capabilities by directly incorporating explicit guidance. Unlike previous methods that rely on complex knowledge, which either require significant human effort or lack quality assurance, MPO leverages high-level general guidance through meta plans to assist agent planning and enables continuous optimization of the meta plans based on feedback from the agent's task execution. Our experiments conducted on two representative tasks demonstrate that MPO significantly outperforms existing baselines. Moreover, our analysis indicates that MPO provides a plug-and-play solution that enhances both task completion efficiency and generalization capabilities in previous unseen scenarios.

MPO: Potenciando Agentes de LLM con Optimización de Planes Meta

MPO: Boosting LLM Agents with Meta Plan Optimization

Resumen

Support