MPO: Steigerung der Leistung von LLM-Agenten durch Meta-Plan-Optimierung
MPO: Boosting LLM Agents with Meta Plan Optimization
March 4, 2025
Autoren: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben es LLM-basierten Agenten ermöglicht, interaktive Planungsaufgaben erfolgreich zu bewältigen. Trotz dieser Erfolge leiden bestehende Ansätze jedoch häufig unter Planungshalluzinationen und erfordern eine erneute Anpassung für jeden neuen Agenten. Um diese Herausforderungen zu bewältigen, schlagen wir das Meta-Plan-Optimierungs-Framework (MPO) vor, das die Planungsfähigkeiten von Agenten durch die direkte Einbindung expliziter Anleitungen verbessert. Im Gegensatz zu früheren Methoden, die auf komplexem Wissen basieren, das entweder erheblichen menschlichen Aufwand erfordert oder keine Qualitätssicherung bietet, nutzt MPO allgemeine, hochrangige Anleitungen durch Meta-Pläne, um die Planung der Agenten zu unterstützen, und ermöglicht eine kontinuierliche Optimierung der Meta-Pläne basierend auf Rückmeldungen aus der Aufgabenausführung des Agenten. Unsere Experimente, die an zwei repräsentativen Aufgaben durchgeführt wurden, zeigen, dass MPO bestehende Vergleichsmethoden deutlich übertrifft. Darüber hinaus zeigt unsere Analyse, dass MPO eine Plug-and-Play-Lösung bietet, die sowohl die Effizienz der Aufgabenabwicklung als auch die Generalisierungsfähigkeiten in bisher unbekannten Szenarien verbessert.
English
Recent advancements in large language models (LLMs) have enabled LLM-based
agents to successfully tackle interactive planning tasks. However, despite
their successes, existing approaches often suffer from planning hallucinations
and require retraining for each new agent. To address these challenges, we
propose the Meta Plan Optimization (MPO) framework, which enhances agent
planning capabilities by directly incorporating explicit guidance. Unlike
previous methods that rely on complex knowledge, which either require
significant human effort or lack quality assurance, MPO leverages high-level
general guidance through meta plans to assist agent planning and enables
continuous optimization of the meta plans based on feedback from the agent's
task execution. Our experiments conducted on two representative tasks
demonstrate that MPO significantly outperforms existing baselines. Moreover,
our analysis indicates that MPO provides a plug-and-play solution that enhances
both task completion efficiency and generalization capabilities in previous
unseen scenarios.Summary
AI-Generated Summary