ChatPaper.aiChatPaper

Retroformer: 政策勾配最適化を用いた回顧的大規模言語エージェント

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

August 4, 2023
著者: Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI

要旨

ここ数ヶ月、大規模言語モデル(LLM)を強化し、人間のユーザーからのクエリに応答するだけでなく、目的指向の多段階タスクを自律的に実行できる自律型言語エージェントへと進化させる新たな強力なトレンドが出現しています。しかし、既存の言語エージェントの多くは、環境固有の報酬を用いて最適化されていません。一部のエージェントは言語フィードバックを通じて反復的な改善を可能にしていますが、報酬からの勾配ベースの学習と互換性のある方法で推論や計画を行うことはできません。本論文では、政策勾配を通じて環境フィードバックから言語エージェントのプロンプトを自動的に調整する回顧モデルを学習することで、大規模言語エージェントを強化するための原則に基づいたフレームワークを紹介します。具体的には、提案するエージェントアーキテクチャは、複数の環境とタスクにわたる報酬から学習し、事前学習済みの言語モデルを微調整することで、過去の失敗試行の根本原因を要約し、行動計画を提案する言語エージェントのプロンプトを洗練させます。様々なタスクにおける実験結果は、言語エージェントが時間とともに改善し、提案手法が環境からの勾配を適切に活用しないベースラインを大幅に上回ることを示しています。これは、政策勾配最適化を用いて言語エージェントを改善することが有望であり、我々の研究がその先駆けの一つであると考えられることを示しています。このアプローチは、エージェントアーキテクチャ内の他のモデルを最適化し、エージェントのパフォーマンスを時間とともに向上させるためにも適用可能です。
English
Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
PDF201December 15, 2024