MPO: Verbetering van LLM-agents met Meta Plan Optimalisatie
MPO: Boosting LLM Agents with Meta Plan Optimization
March 4, 2025
Auteurs: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) heeft LLM-gebaseerde agents in staat gesteld om interactieve plannings taken succesvol aan te pakken. Desondanks kampen bestaande benaderingen vaak met planningshallucinaties en vereisen ze hertraining voor elke nieuwe agent. Om deze uitdagingen aan te pakken, stellen we het Meta Plan Optimization (MPO) framework voor, dat de planningscapaciteiten van agents verbetert door expliciete begeleiding direct te integreren. In tegenstelling tot eerdere methoden die vertrouwen op complexe kennis, die ofwel aanzienlijke menselijke inspanning vereisen of kwaliteitsborging missen, maakt MPO gebruik van hoogwaardige algemene begeleiding via metaplannen om de planning van agents te ondersteunen en stelt het continue optimalisatie van de metaplannen mogelijk op basis van feedback van de taakuitvoering van de agent. Onze experimenten, uitgevoerd op twee representatieve taken, tonen aan dat MPO aanzienlijk beter presteert dan bestaande baseline-methoden. Bovendien geeft onze analyse aan dat MPO een plug-and-play oplossing biedt die zowel de taakvoltooiingsefficiëntie als de generalisatiecapaciteiten in voorheen onbekende scenario's verbetert.
English
Recent advancements in large language models (LLMs) have enabled LLM-based
agents to successfully tackle interactive planning tasks. However, despite
their successes, existing approaches often suffer from planning hallucinations
and require retraining for each new agent. To address these challenges, we
propose the Meta Plan Optimization (MPO) framework, which enhances agent
planning capabilities by directly incorporating explicit guidance. Unlike
previous methods that rely on complex knowledge, which either require
significant human effort or lack quality assurance, MPO leverages high-level
general guidance through meta plans to assist agent planning and enables
continuous optimization of the meta plans based on feedback from the agent's
task execution. Our experiments conducted on two representative tasks
demonstrate that MPO significantly outperforms existing baselines. Moreover,
our analysis indicates that MPO provides a plug-and-play solution that enhances
both task completion efficiency and generalization capabilities in previous
unseen scenarios.