ChatPaper.aiChatPaper

OmniACT: Een dataset en benchmark voor het mogelijk maken van multimodale generalistische autonome agents voor desktop en web

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

February 27, 2024
Auteurs: Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
cs.AI

Samenvatting

Decennialang is mens-computerinteractie in wezen handmatig geweest. Zelfs vandaag de dag vereist bijna al het productieve werk op de computer menselijke input bij elke stap. Autonome virtuele agents vertegenwoordigen een spannende stap in het automatiseren van veel van deze routinetaken. Virtuele agents zouden gebruikers met beperkte technische vaardigheden in staat stellen om de volledige mogelijkheden van computersystemen te benutten. Ze zouden ook de efficiënte stroomlijning van talrijke computertaken mogelijk maken, variërend van kalenderbeheer tot complexe reisboekingen, met minimale menselijke tussenkomst. In dit artikel introduceren we OmniACT, de eerste in zijn soort dataset en benchmark voor het beoordelen van de capaciteit van een agent om uitvoerbare programma's te genereren om computertaken te voltooien. Onze scope gaat verder dan traditionele webautomatisering en omvat een diverse reeks desktopapplicaties. De dataset bestaat uit fundamentele taken zoals "Speel het volgende nummer af", evenals langere termijntaken zoals "Stuur een e-mail naar John Doe met de tijd en plaats van de afspraak". Specifiek, gegeven een paar schermafbeelding en een visueel verankerde natuurlijke taaltaak, is het doel om een script te genereren dat in staat is om de taak volledig uit te voeren. We hebben verschillende sterke baseline-taalmodelagents op onze benchmark uitgevoerd. De sterkste baseline, GPT-4, presteert het beste op onze benchmark. Echter, het prestatieniveau bereikt slechts 15% van de menselijke vaardigheid in het genereren van uitvoerbare scripts die in staat zijn om de taak te voltooien, wat de uitdaging van onze taak voor conventionele webagents aantoont. Onze benchmark biedt een platform om de voortgang van taalmodelagents in het automatiseren van computertaken te meten en te evalueren en motiveert toekomstig werk naar het bouwen van multimodale modellen die grote taalmmodellen en de visuele verankering van computerschermen overbruggen.
English
For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. Autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would empower users with limited technical proficiency to harness the full possibilities of computer systems. They could also enable the efficient streamlining of numerous computer tasks, ranging from calendar management to complex travel bookings, with minimal human intervention. In this paper, we introduce OmniACT, the first-of-a-kind dataset and benchmark for assessing an agent's capability to generate executable programs to accomplish computer tasks. Our scope extends beyond traditional web automation, covering a diverse range of desktop applications. The dataset consists of fundamental tasks such as "Play the next song", as well as longer horizon tasks such as "Send an email to John Doe mentioning the time and place to meet". Specifically, given a pair of screen image and a visually-grounded natural language task, the goal is to generate a script capable of fully executing the task. We run several strong baseline language model agents on our benchmark. The strongest baseline, GPT-4, performs the best on our benchmark However, its performance level still reaches only 15% of the human proficiency in generating executable scripts capable of completing the task, demonstrating the challenge of our task for conventional web agents. Our benchmark provides a platform to measure and evaluate the progress of language model agents in automating computer tasks and motivates future work towards building multimodal models that bridge large language models and the visual grounding of computer screens.
PDF256February 8, 2026