MPO: 메타 계획 최적화를 통한 LLM 에이전트 성능 향상
MPO: Boosting LLM Agents with Meta Plan Optimization
March 4, 2025
저자: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전으로 인해 LLM 기반 에이전트가 인터랙티브 계획 수립 작업을 성공적으로 처리할 수 있게 되었습니다. 그러나 이러한 성과에도 불구하고, 기존 접근 방식들은 종종 계획 수립 과정에서 환각 현상을 겪거나 새로운 에이전트마다 재학습이 필요하다는 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 명시적 지침을 직접 통합하여 에이전트의 계획 수립 능력을 강화하는 메타 계획 최적화(MPO) 프레임워크를 제안합니다. 복잡한 지식에 의존하여 상당한 인간의 노력이 필요하거나 품질 보장이 부족한 기존 방법과 달리, MPO는 메타 계획을 통해 고수준의 일반적인 지침을 활용하여 에이전트의 계획 수립을 지원하고, 에이전트의 작업 실행 피드백을 기반으로 메타 계획의 지속적인 최적화를 가능하게 합니다. 두 가지 대표적인 작업에서 수행한 실험 결과, MPO가 기존 베이스라인을 크게 능가하는 것으로 나타났습니다. 또한, 우리의 분석은 MPO가 플러그 앤 플레이 솔루션을 제공하여 이전에 접하지 못한 시나리오에서도 작업 완료 효율성과 일반화 능력을 모두 향상시킨다는 것을 보여줍니다.
English
Recent advancements in large language models (LLMs) have enabled LLM-based
agents to successfully tackle interactive planning tasks. However, despite
their successes, existing approaches often suffer from planning hallucinations
and require retraining for each new agent. To address these challenges, we
propose the Meta Plan Optimization (MPO) framework, which enhances agent
planning capabilities by directly incorporating explicit guidance. Unlike
previous methods that rely on complex knowledge, which either require
significant human effort or lack quality assurance, MPO leverages high-level
general guidance through meta plans to assist agent planning and enables
continuous optimization of the meta plans based on feedback from the agent's
task execution. Our experiments conducted on two representative tasks
demonstrate that MPO significantly outperforms existing baselines. Moreover,
our analysis indicates that MPO provides a plug-and-play solution that enhances
both task completion efficiency and generalization capabilities in previous
unseen scenarios.