WebArena: Een Realistische Webomgeving voor het Bouwen van Autonome Agents

Samenvatting

Met de vooruitgang in generatieve AI is het opwindende potentieel ontstaan voor autonome agents om dagelijkse taken te beheren via natuurlijke taalcommando's. Huidige agents worden echter voornamelijk ontwikkeld en getest in vereenvoudigde synthetische omgevingen, wat de representatie van realistische scenario's aanzienlijk beperkt. In dit artikel bouwen we een omgeving voor het commando en de controle van agents die zeer realistisch en reproduceerbaar is. Specifiek richten we ons op agents die taken uitvoeren op websites, en we creëren een omgeving met volledig functionele websites uit vier veelvoorkomende domeinen: e-commerce, sociale forumdiscussies, collaboratieve softwareontwikkeling en contentbeheer. Onze omgeving is verrijkt met tools (bijvoorbeeld een kaart) en externe kennisbronnen (bijvoorbeeld gebruikershandleidingen) om mensachtige taakoplossing te bevorderen. Op basis van onze omgeving publiceren we een set benchmarktaken die gericht zijn op het evalueren van de functionele correctheid van taakvoltooiingen. De taken in onze benchmark zijn divers, langlopend en zijn ontworpen om taken na te bootsen die mensen routinematig op internet uitvoeren. We ontwerpen en implementeren verschillende autonome agents, waarbij we recente technieken integreren, zoals redeneren voordat er wordt gehandeld. De resultaten tonen aan dat het oplossen van complexe taken uitdagend is: onze beste GPT-4-gebaseerde agent behaalt slechts een end-to-end taaksuccespercentage van 10,59%. Deze resultaten benadrukken de noodzaak van verdere ontwikkeling van robuuste agents, dat huidige state-of-the-art taalmodellen verre van perfect presteren in deze real-life taken, en dat WebArena gebruikt kan worden om dergelijke vooruitgang te meten. Onze code, data, omgevingsreproductiebronnen en videodemonstraties zijn openbaar beschikbaar op https://webarena.dev/.

English

With generative AI advances, the exciting potential for autonomous agents to manage daily tasks via natural language commands has emerged. However, cur rent agents are primarily created and tested in simplified synthetic environments, substantially limiting real-world scenario representation. In this paper, we build an environment for agent command and control that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on websites, and we create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and are designed to emulate tasks that humans routinely perform on the internet. We design and implement several autonomous agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 10.59%. These results highlight the need for further development of robust agents, that current state-of-the-art LMs are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress. Our code, data, environment reproduction resources, and video demonstrations are publicly available at https://webarena.dev/.

WebArena: Een Realistische Webomgeving voor het Bouwen van Autonome Agents

WebArena: A Realistic Web Environment for Building Autonomous Agents

Samenvatting

Support