Retroformer : Agents de Langage à Grande Échelle Rétrospectifs avec Optimisation par Gradient de Politique
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization
August 4, 2023
papers.authors: Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI
papers.abstract
Ces derniers mois ont vu émerger une nouvelle tendance puissante dans laquelle les grands modèles de langage (LLMs) sont augmentés pour devenir des agents linguistiques autonomes capables d'accomplir des tâches multi-étapes orientées vers un objectif de manière indépendante, plutôt que de simplement répondre aux requêtes des utilisateurs humains. Cependant, la plupart des agents linguistiques existants ne sont pas optimisés à l'aide de récompenses spécifiques à l'environnement. Bien que certains agents permettent un affinement itératif grâce à des retours verbaux, ils ne raisonnent et ne planifient pas de manière compatible avec l'apprentissage basé sur les gradients à partir de récompenses. Cet article introduit un cadre méthodologique pour renforcer les grands agents linguistiques en apprenant un modèle rétrospectif, qui ajuste automatiquement les prompts de l'agent linguistique à partir des retours de l'environnement via la méthode des gradients de politique. Plus précisément, notre architecture d'agent proposée apprend à partir de récompenses dans plusieurs environnements et tâches, pour affiner un modèle de langage pré-entraîné qui améliore le prompt de l'agent linguistique en résumant la cause racine des tentatives précédentes ayant échoué et en proposant des plans d'action. Les résultats expérimentaux sur diverses tâches démontrent que les agents linguistiques s'améliorent au fil du temps et que notre approche surpasse considérablement les méthodes de référence qui n'exploitent pas correctement les gradients provenant de l'environnement. Cela montre que l'utilisation de l'optimisation par gradients de politique pour améliorer les agents linguistiques, pour laquelle nous croyons que notre travail est l'un des premiers, semble prometteuse et peut être appliquée pour optimiser d'autres modèles dans l'architecture de l'agent afin d'améliorer les performances de l'agent au fil du temps.
English
Recent months have seen the emergence of a powerful new trend in which large
language models (LLMs) are augmented to become autonomous language agents
capable of performing objective oriented multi-step tasks on their own, rather
than merely responding to queries from human users. Most existing language
agents, however, are not optimized using environment-specific rewards. Although
some agents enable iterative refinement through verbal feedback, they do not
reason and plan in ways that are compatible with gradient-based learning from
rewards. This paper introduces a principled framework for reinforcing large
language agents by learning a retrospective model, which automatically tunes
the language agent prompts from environment feedback through policy gradient.
Specifically, our proposed agent architecture learns from rewards across
multiple environments and tasks, for fine-tuning a pre-trained language model
which refines the language agent prompt by summarizing the root cause of prior
failed attempts and proposing action plans. Experimental results on various
tasks demonstrate that the language agents improve over time and that our
approach considerably outperforms baselines that do not properly leverage
gradients from the environment. This demonstrates that using policy gradient
optimization to improve language agents, for which we believe our work is one
of the first, seems promising and can be applied to optimize other models in
the agent architecture to enhance agent performances over time.