Retroformer : Agents de Langage à Grande Échelle Rétrospectifs avec Optimisation par Gradient de Politique

papers.abstract

Ces derniers mois ont vu émerger une nouvelle tendance puissante dans laquelle les grands modèles de langage (LLMs) sont augmentés pour devenir des agents linguistiques autonomes capables d'accomplir des tâches multi-étapes orientées vers un objectif de manière indépendante, plutôt que de simplement répondre aux requêtes des utilisateurs humains. Cependant, la plupart des agents linguistiques existants ne sont pas optimisés à l'aide de récompenses spécifiques à l'environnement. Bien que certains agents permettent un affinement itératif grâce à des retours verbaux, ils ne raisonnent et ne planifient pas de manière compatible avec l'apprentissage basé sur les gradients à partir de récompenses. Cet article introduit un cadre méthodologique pour renforcer les grands agents linguistiques en apprenant un modèle rétrospectif, qui ajuste automatiquement les prompts de l'agent linguistique à partir des retours de l'environnement via la méthode des gradients de politique. Plus précisément, notre architecture d'agent proposée apprend à partir de récompenses dans plusieurs environnements et tâches, pour affiner un modèle de langage pré-entraîné qui améliore le prompt de l'agent linguistique en résumant la cause racine des tentatives précédentes ayant échoué et en proposant des plans d'action. Les résultats expérimentaux sur diverses tâches démontrent que les agents linguistiques s'améliorent au fil du temps et que notre approche surpasse considérablement les méthodes de référence qui n'exploitent pas correctement les gradients provenant de l'environnement. Cela montre que l'utilisation de l'optimisation par gradients de politique pour améliorer les agents linguistiques, pour laquelle nous croyons que notre travail est l'un des premiers, semble prometteuse et peut être appliquée pour optimiser d'autres modèles dans l'architecture de l'agent afin d'améliorer les performances de l'agent au fil du temps.

English

Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.

Retroformer : Agents de Langage à Grande Échelle Rétrospectifs avec Optimisation par Gradient de Politique

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

papers.abstract

Support