AgentGym : Évolution d'agents basés sur des modèles de langage de grande envergure à travers des environnements diversifiés

papers.abstract

La construction d'agents généralistes capables de gérer des tâches diverses et d'évoluer dans différents environnements constitue un objectif à long terme pour la communauté de l'IA. Les grands modèles de langage (LLMs) sont considérés comme une base prometteuse pour développer de tels agents en raison de leurs capacités généralisées. Les approches actuelles font soit imiter aux agents basés sur des LLMs des trajectoires fournies par des experts étape par étape, ce qui nécessite une supervision humaine, difficile à mettre à l'échelle et limitant l'exploration environnementale ; soit elles laissent les agents explorer et apprendre dans des environnements isolés, ce qui aboutit à des agents spécialistes avec une généralisation limitée. Dans cet article, nous faisons un premier pas vers la construction d'agents basés sur des LLMs, généralement capables et dotés d'une capacité d'auto-évolution. Nous identifions une trinité d'ingrédients : 1) des environnements diversifiés pour l'exploration et l'apprentissage des agents, 2) un ensemble de trajectoires pour doter les agents de capacités de base et de connaissances préalables, et 3) une méthode d'évolution efficace et scalable. Nous proposons AgentGym, un nouveau cadre offrant une variété d'environnements et de tâches pour une exploration large, en temps réel, unifiée et concurrente des agents. AgentGym inclut également une base de données avec des instructions étendues, une suite de benchmarks et des trajectoires de haute qualité à travers les environnements. Ensuite, nous proposons une nouvelle méthode, AgentEvol, pour explorer le potentiel d'auto-évolution des agents au-delà des données précédemment observées à travers les tâches et les environnements. Les résultats expérimentaux montrent que les agents évolués peuvent atteindre des résultats comparables aux modèles SOTA. Nous publions la suite AgentGym, incluant la plateforme, le jeu de données, le benchmark, les points de contrôle et les implémentations d'algorithmes. La suite AgentGym est disponible sur https://github.com/WooooDyy/AgentGym.

English

Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.

AgentGym : Évolution d'agents basés sur des modèles de langage de grande envergure à travers des environnements diversifiés

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

papers.abstract

Support