MPO: Potenziamento degli Agenti LLM con Ottimizzazione Meta-Piano
MPO: Boosting LLM Agents with Meta Plan Optimization
March 4, 2025
Autori: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti basati su LLM di affrontare con successo compiti di pianificazione interattiva. Tuttavia, nonostante i loro successi, gli approcci esistenti spesso soffrono di allucinazioni nella pianificazione e richiedono un nuovo addestramento per ogni nuovo agente. Per affrontare queste sfide, proponiamo il framework di Ottimizzazione del Meta Piano (MPO), che potenzia le capacità di pianificazione degli agenti incorporando direttamente una guida esplicita. A differenza dei metodi precedenti che si basano su conoscenze complesse, che richiedono uno sforzo umano significativo o mancano di garanzia di qualità, MPO sfrutta una guida generale di alto livello attraverso meta piani per assistere la pianificazione degli agenti e consente un'ottimizzazione continua dei meta piani basata sul feedback derivante dall'esecuzione dei compiti da parte dell'agente. I nostri esperimenti condotti su due compiti rappresentativi dimostrano che MPO supera significativamente i baseline esistenti. Inoltre, la nostra analisi indica che MPO fornisce una soluzione plug-and-play che migliora sia l'efficienza nel completamento dei compiti sia le capacità di generalizzazione in scenari precedentemente non visti.
English
Recent advancements in large language models (LLMs) have enabled LLM-based
agents to successfully tackle interactive planning tasks. However, despite
their successes, existing approaches often suffer from planning hallucinations
and require retraining for each new agent. To address these challenges, we
propose the Meta Plan Optimization (MPO) framework, which enhances agent
planning capabilities by directly incorporating explicit guidance. Unlike
previous methods that rely on complex knowledge, which either require
significant human effort or lack quality assurance, MPO leverages high-level
general guidance through meta plans to assist agent planning and enables
continuous optimization of the meta plans based on feedback from the agent's
task execution. Our experiments conducted on two representative tasks
demonstrate that MPO significantly outperforms existing baselines. Moreover,
our analysis indicates that MPO provides a plug-and-play solution that enhances
both task completion efficiency and generalization capabilities in previous
unseen scenarios.Summary
AI-Generated Summary