ChatPaper.aiChatPaper

Retroformer: Agentes de Lenguaje de Gran Escala Retrospectivos con Optimización de Gradiente de Política

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

August 4, 2023
Autores: Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI

Resumen

En los últimos meses ha surgido una tendencia poderosa en la que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se potencian para convertirse en agentes de lenguaje autónomos capaces de realizar tareas multi-paso orientadas a objetivos por sí mismos, en lugar de limitarse a responder a consultas de usuarios humanos. Sin embargo, la mayoría de los agentes de lenguaje existentes no están optimizados utilizando recompensas específicas del entorno. Aunque algunos agentes permiten un refinamiento iterativo a través de retroalimentación verbal, no razonan ni planifican de manera compatible con el aprendizaje basado en gradientes a partir de recompensas. Este artículo introduce un marco conceptual para reforzar agentes de lenguaje de gran escala mediante el aprendizaje de un modelo retrospectivo, que ajusta automáticamente los prompts del agente de lenguaje a partir de la retroalimentación del entorno a través del gradiente de políticas. Específicamente, nuestra arquitectura de agente propuesta aprende de recompensas en múltiples entornos y tareas, afinando un modelo de lenguaje preentrenado que refina el prompt del agente de lenguaje resumiendo la causa raíz de intentos fallidos previos y proponiendo planes de acción. Los resultados experimentales en diversas tareas demuestran que los agentes de lenguaje mejoran con el tiempo y que nuestro enfoque supera considerablemente a las líneas base que no aprovechan adecuadamente los gradientes del entorno. Esto demuestra que el uso de la optimización por gradiente de políticas para mejorar los agentes de lenguaje, para lo cual creemos que nuestro trabajo es uno de los primeros, parece prometedor y puede aplicarse para optimizar otros modelos en la arquitectura del agente, mejorando así su desempeño a lo largo del tiempo.
English
Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
PDF201December 15, 2024