OmniACT: Een dataset en benchmark voor het mogelijk maken van multimodale generalistische autonome agents voor desktop en web
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web
February 27, 2024
Auteurs: Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
cs.AI
Samenvatting
Decennialang is mens-computerinteractie in wezen handmatig geweest. Zelfs vandaag de dag vereist bijna al het productieve werk op de computer menselijke input bij elke stap. Autonome virtuele agents vertegenwoordigen een spannende stap in het automatiseren van veel van deze routinetaken. Virtuele agents zouden gebruikers met beperkte technische vaardigheden in staat stellen om de volledige mogelijkheden van computersystemen te benutten. Ze zouden ook de efficiënte stroomlijning van talrijke computertaken mogelijk maken, variërend van kalenderbeheer tot complexe reisboekingen, met minimale menselijke tussenkomst. In dit artikel introduceren we OmniACT, de eerste in zijn soort dataset en benchmark voor het beoordelen van de capaciteit van een agent om uitvoerbare programma's te genereren om computertaken te voltooien. Onze scope gaat verder dan traditionele webautomatisering en omvat een diverse reeks desktopapplicaties. De dataset bestaat uit fundamentele taken zoals "Speel het volgende nummer af", evenals langere termijntaken zoals "Stuur een e-mail naar John Doe met de tijd en plaats van de afspraak". Specifiek, gegeven een paar schermafbeelding en een visueel verankerde natuurlijke taaltaak, is het doel om een script te genereren dat in staat is om de taak volledig uit te voeren. We hebben verschillende sterke baseline-taalmodelagents op onze benchmark uitgevoerd. De sterkste baseline, GPT-4, presteert het beste op onze benchmark. Echter, het prestatieniveau bereikt slechts 15% van de menselijke vaardigheid in het genereren van uitvoerbare scripts die in staat zijn om de taak te voltooien, wat de uitdaging van onze taak voor conventionele webagents aantoont. Onze benchmark biedt een platform om de voortgang van taalmodelagents in het automatiseren van computertaken te meten en te evalueren en motiveert toekomstig werk naar het bouwen van multimodale modellen die grote taalmmodellen en de visuele verankering van computerschermen overbruggen.
English
For decades, human-computer interaction has fundamentally been manual. Even
today, almost all productive work done on the computer necessitates human input
at every step. Autonomous virtual agents represent an exciting step in
automating many of these menial tasks. Virtual agents would empower users with
limited technical proficiency to harness the full possibilities of computer
systems. They could also enable the efficient streamlining of numerous computer
tasks, ranging from calendar management to complex travel bookings, with
minimal human intervention. In this paper, we introduce OmniACT, the
first-of-a-kind dataset and benchmark for assessing an agent's capability to
generate executable programs to accomplish computer tasks. Our scope extends
beyond traditional web automation, covering a diverse range of desktop
applications. The dataset consists of fundamental tasks such as "Play the next
song", as well as longer horizon tasks such as "Send an email to John Doe
mentioning the time and place to meet". Specifically, given a pair of screen
image and a visually-grounded natural language task, the goal is to generate a
script capable of fully executing the task. We run several strong baseline
language model agents on our benchmark. The strongest baseline, GPT-4, performs
the best on our benchmark However, its performance level still reaches only 15%
of the human proficiency in generating executable scripts capable of completing
the task, demonstrating the challenge of our task for conventional web agents.
Our benchmark provides a platform to measure and evaluate the progress of
language model agents in automating computer tasks and motivates future work
towards building multimodal models that bridge large language models and the
visual grounding of computer screens.