ChatPaper.aiChatPaper

MPO: Potencializando Agentes de LLM com Otimização de Meta Plano

MPO: Boosting LLM Agents with Meta Plan Optimization

March 4, 2025
Autores: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) permitiram que agentes baseados em LLMs abordassem com sucesso tarefas de planejamento interativo. No entanto, apesar de seus sucessos, as abordagens existentes frequentemente sofrem com alucinações de planejamento e exigem retreinamento para cada novo agente. Para enfrentar esses desafios, propomos o framework de Otimização de Meta Planos (MPO), que aprimora as capacidades de planejamento dos agentes ao incorporar diretamente orientações explícitas. Diferentemente de métodos anteriores que dependem de conhecimento complexo, os quais exigem esforço humano significativo ou carecem de garantia de qualidade, o MPO utiliza orientações gerais de alto nível por meio de meta planos para auxiliar o planejamento do agente e permite a otimização contínua dos meta planos com base no feedback da execução de tarefas pelo agente. Nossos experimentos realizados em duas tarefas representativas demonstram que o MPO supera significativamente as abordagens baselines existentes. Além disso, nossa análise indica que o MPO oferece uma solução plug-and-play que melhora tanto a eficiência na conclusão de tarefas quanto as capacidades de generalização em cenários previamente não vistos.
English
Recent advancements in large language models (LLMs) have enabled LLM-based agents to successfully tackle interactive planning tasks. However, despite their successes, existing approaches often suffer from planning hallucinations and require retraining for each new agent. To address these challenges, we propose the Meta Plan Optimization (MPO) framework, which enhances agent planning capabilities by directly incorporating explicit guidance. Unlike previous methods that rely on complex knowledge, which either require significant human effort or lack quality assurance, MPO leverages high-level general guidance through meta plans to assist agent planning and enables continuous optimization of the meta plans based on feedback from the agent's task execution. Our experiments conducted on two representative tasks demonstrate that MPO significantly outperforms existing baselines. Moreover, our analysis indicates that MPO provides a plug-and-play solution that enhances both task completion efficiency and generalization capabilities in previous unseen scenarios.

Summary

AI-Generated Summary

PDF272March 5, 2025