ChatPaper.aiChatPaper

Mise à l'échelle des agents autonomes via la modélisation automatique des récompenses et la planification

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

February 17, 2025
Auteurs: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans une variété de tâches de génération de texte. Cependant, les LLM peinent encore à résoudre des problèmes nécessitant une prise de décision multi-étapes et un retour d'information environnemental, tels que les achats en ligne, le raisonnement scientifique et la résolution de problèmes mathématiques. Contrairement aux données textuelles pures, la collecte de données de prise de décision à grande échelle est complexe. De plus, de nombreux LLM puissants ne sont accessibles que via des API, ce qui entrave leur fine-tuning pour des tâches d'agents en raison des coûts et de la complexité. Pour pallier les limitations des agents LLM, nous proposons un cadre capable d'apprendre automatiquement un modèle de récompense à partir de l'environnement sans annotations humaines. Ce modèle peut être utilisé pour évaluer les trajectoires d'actions des agents LLM et fournir des heuristiques pour la planification des tâches. Concrètement, notre approche consiste à employer un agent basé sur un LLM pour naviguer aléatoirement dans un environnement, générant ainsi des trajectoires d'actions variées. Ensuite, un autre LLM est utilisé pour attribuer une intention de tâche et synthétiser une réponse négative ainsi que la réponse correcte pour chaque trajectoire. Ces triplets (intention de tâche, réponse positive et réponse négative) sont ensuite utilisés comme données d'entraînement pour optimiser un modèle de récompense capable de noter les trajectoires d'actions. L'efficacité et la généralisabilité de notre cadre sont démontrées par des évaluations menées sur différents benchmarks d'agents. En conclusion, notre cadre proposé représente une avancée significative dans l'amélioration des capacités de prise de décision des agents LLM. En automatisant l'apprentissage des modèles de récompense, nous surmontons les défis de la rareté des données et des limitations des API, révolutionnant potentiellement l'application des LLM dans des environnements complexes et interactifs. Cette recherche ouvre la voie à des agents IA plus sophistiqués capables de s'attaquer à une large gamme de problèmes réels nécessitant une prise de décision multi-étapes.
English
Large language models (LLMs) have demonstrated remarkable capabilities across a range of text-generation tasks. However, LLMs still struggle with problems requiring multi-step decision-making and environmental feedback, such as online shopping, scientific reasoning, and mathematical problem-solving. Unlike pure text data, collecting large-scale decision-making data is challenging. Moreover, many powerful LLMs are only accessible through APIs, which hinders their fine-tuning for agent tasks due to cost and complexity. To address LLM agents' limitations, we propose a framework that can automatically learn a reward model from the environment without human annotations. This model can be used to evaluate the action trajectories of LLM agents and provide heuristics for task planning. Specifically, our approach involves employing one LLM-based agent to navigate an environment randomly, generating diverse action trajectories. Subsequently, a separate LLM is leveraged to assign a task intent and synthesize a negative response alongside the correct response for each trajectory. These triplets (task intent, positive response, and negative response) are then utilized as training data to optimize a reward model capable of scoring action trajectories. The effectiveness and generalizability of our framework are demonstrated through evaluations conducted on different agent benchmarks. In conclusion, our proposed framework represents a significant advancement in enhancing LLM agents' decision-making capabilities. By automating the learning of reward models, we overcome the challenges of data scarcity and API limitations, potentially revolutionizing the application of LLMs in complex and interactive environments. This research paves the way for more sophisticated AI agents capable of tackling a wide range of real-world problems requiring multi-step decision-making.

Summary

AI-Generated Summary

PDF22February 19, 2025