ChatPaper.aiChatPaper

Retroformer: 정책 경사 최적화를 통한 회고적 대형 언어 에이전트

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

August 4, 2023
저자: Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI

초록

최근 몇 달 동안, 대형 언어 모델(LLM)이 인간 사용자의 질문에 단순히 응답하는 것을 넘어 목표 지향적인 다단계 작업을 스스로 수행할 수 있는 자율 언어 에이전트로 강화되는 강력한 새로운 트렌드가 등장했다. 그러나 대부분의 기존 언어 에이전트는 환경 특화 보상을 사용하여 최적화되지 않았다. 일부 에이전트는 언어적 피드백을 통해 반복적 개선을 가능하게 하지만, 보상에 기반한 경사 하강법 학습과 호환되는 방식으로 추론 및 계획을 수행하지는 않는다. 본 논문은 회고 모델을 학습함으로써 대형 언어 에이전트를 강화하는 원칙적인 프레임워크를 소개한다. 이 프레임워크는 정책 경사법을 통해 환경 피드백으로부터 언어 에이전트 프롬프트를 자동으로 조정한다. 구체적으로, 제안된 에이전트 아키텍처는 여러 환경과 작업에서 보상을 학습하여, 사전 훈련된 언어 모델을 미세 조정하고, 이전 실패 시도의 근본 원인을 요약하고 행동 계획을 제안함으로써 언어 에이전트 프롬프트를 개선한다. 다양한 작업에 대한 실험 결과는 언어 에이전트가 시간이 지남에 따라 개선되며, 제안된 접근 방식이 환경으로부터의 경사를 적절히 활용하지 않는 기준선을 상당히 능가함을 보여준다. 이는 정책 경사법 최적화를 사용하여 언어 에이전트를 개선하는 것이 유망하며, 우리의 연구가 이 분야의 선구적인 작업 중 하나로 간주될 수 있음을 시사한다. 또한, 이 방법은 에이전트 아키텍처 내의 다른 모델을 최적화하여 시간이 지남에 따라 에이전트 성능을 향상시키는 데도 적용될 수 있다.
English
Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
PDF201December 15, 2024