ChatPaper.aiChatPaper

MPO : Amélioration des agents LLM grâce à l'optimisation de plans méta

MPO: Boosting LLM Agents with Meta Plan Optimization

March 4, 2025
Auteurs: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI

Résumé

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont permis aux agents basés sur ces modèles de relever avec succès des tâches de planification interactive. Cependant, malgré leurs succès, les approches existantes souffrent souvent d'hallucinations de planification et nécessitent un réentraînement pour chaque nouvel agent. Pour relever ces défis, nous proposons le cadre d'Optimisation des Méta-Plans (Meta Plan Optimization, MPO), qui améliore les capacités de planification des agents en intégrant directement des directives explicites. Contrairement aux méthodes précédentes qui reposent sur des connaissances complexes, nécessitant soit un effort humain important, soit manquant de garantie de qualité, MPO exploite des directives générales de haut niveau via des méta-plans pour assister la planification des agents et permet une optimisation continue des méta-plans basée sur les retours d'expérience de l'exécution des tâches par l'agent. Nos expériences menées sur deux tâches représentatives démontrent que MPO surpasse significativement les approches de référence existantes. De plus, notre analyse indique que MPO offre une solution plug-and-play qui améliore à la fois l'efficacité de la réalisation des tâches et les capacités de généralisation dans des scénarios précédemment non rencontrés.
English
Recent advancements in large language models (LLMs) have enabled LLM-based agents to successfully tackle interactive planning tasks. However, despite their successes, existing approaches often suffer from planning hallucinations and require retraining for each new agent. To address these challenges, we propose the Meta Plan Optimization (MPO) framework, which enhances agent planning capabilities by directly incorporating explicit guidance. Unlike previous methods that rely on complex knowledge, which either require significant human effort or lack quality assurance, MPO leverages high-level general guidance through meta plans to assist agent planning and enables continuous optimization of the meta plans based on feedback from the agent's task execution. Our experiments conducted on two representative tasks demonstrate that MPO significantly outperforms existing baselines. Moreover, our analysis indicates that MPO provides a plug-and-play solution that enhances both task completion efficiency and generalization capabilities in previous unseen scenarios.

Summary

AI-Generated Summary

PDF272March 5, 2025