ChatPaper.aiChatPaper

AgentGym: Het ontwikkelen van op grote taalmodellen gebaseerde agents in diverse omgevingen

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

June 6, 2024
Auteurs: Zhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, Songyang Gao, Lu Chen, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Samenvatting

Het ontwikkelen van generalistische agents die diverse taken aankunnen en zichzelf kunnen ontwikkelen in verschillende omgevingen is een langetermijndoel binnen de AI-gemeenschap. Grote taalmmodellen (LLM's) worden gezien als een veelbelovende basis voor het bouwen van dergelijke agents vanwege hun algemene capaciteiten. Huidige benaderingen laten LLM-gebaseerde agents ofwel stap-voor-stap expert-geleverde trajecten imiteren, wat menselijk toezicht vereist en moeilijk schaalbaar is, waardoor de verkenning van omgevingen wordt beperkt; of ze laten agents verkennen en leren in geïsoleerde omgevingen, wat resulteert in specialistische agents met beperkte generalisatie. In dit artikel zetten we de eerste stap naar het bouwen van algemeen capabele LLM-gebaseerde agents met zelfontwikkelingsvermogen. We identificeren een drietal essentiële ingrediënten: 1) diverse omgevingen voor agentverkenning en -leren, 2) een trajectenset om agents te voorzien van basisvaardigheden en voorkennis, en 3) een effectieve en schaalbare ontwikkelingsmethode. We introduceren AgentGym, een nieuw framework met een verscheidenheid aan omgevingen en taken voor brede, real-time, uniforme en gelijktijdige agentverkenning. AgentGym omvat ook een database met uitgebreide instructies, een benchmarksuite en hoogwaardige trajecten over verschillende omgevingen. Vervolgens stellen we een nieuwe methode voor, AgentEvol, om het potentieel van agentzelfontwikkeling te onderzoeken voorbij eerder geziene gegevens over taken en omgevingen. Experimentele resultaten tonen aan dat de ontwikkelde agents resultaten kunnen behalen die vergelijkbaar zijn met state-of-the-art modellen. We brengen de AgentGym-suite uit, inclusief het platform, dataset, benchmark, checkpoints en algoritme-implementaties. De AgentGym-suite is beschikbaar op https://github.com/WooooDyy/AgentGym.
English
Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.
PDF241February 7, 2026