OmniACT : Un ensemble de données et un benchmark pour permettre des agents autonomes généralistes multimodaux pour les environnements de bureau et web
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web
February 27, 2024
Auteurs: Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
cs.AI
Résumé
Depuis des décennies, l'interaction homme-machine a été fondamentalement manuelle. Même aujourd'hui, presque tout travail productif effectué sur ordinateur nécessite une intervention humaine à chaque étape. Les agents virtuels autonomes représentent une avancée prometteuse dans l'automatisation de nombreuses de ces tâches fastidieuses. Ces agents virtuels permettraient aux utilisateurs ayant une maîtrise technique limitée d'exploiter pleinement les possibilités des systèmes informatiques. Ils pourraient également permettre une rationalisation efficace de nombreuses tâches informatiques, allant de la gestion des calendriers à des réservations de voyage complexes, avec une intervention humaine minimale. Dans cet article, nous présentons OmniACT, le premier ensemble de données et benchmark de son genre pour évaluer la capacité d'un agent à générer des programmes exécutables afin d'accomplir des tâches informatiques. Notre champ d'application va au-delà de l'automatisation web traditionnelle, couvrant une gamme variée d'applications de bureau. L'ensemble de données comprend des tâches fondamentales telles que "Lire la chanson suivante", ainsi que des tâches à plus long terme comme "Envoyer un e-mail à John Doe mentionnant l'heure et le lieu de rendez-vous". Plus précisément, étant donné une paire composée d'une image d'écran et d'une tâche en langage naturel visuellement ancrée, l'objectif est de générer un script capable d'exécuter entièrement la tâche. Nous avons testé plusieurs agents de modèles de langage robustes sur notre benchmark. Le modèle le plus performant, GPT-4, obtient les meilleurs résultats sur notre benchmark. Cependant, son niveau de performance n'atteint que 15 % de la compétence humaine dans la génération de scripts exécutables capables de réaliser la tâche, ce qui démontre la complexité de notre tâche pour les agents web conventionnels. Notre benchmark offre une plateforme pour mesurer et évaluer les progrès des agents de modèles de langage dans l'automatisation des tâches informatiques et encourage les travaux futurs visant à développer des modèles multimodaux qui relient les grands modèles de langage à l'ancrage visuel des écrans d'ordinateur.
English
For decades, human-computer interaction has fundamentally been manual. Even
today, almost all productive work done on the computer necessitates human input
at every step. Autonomous virtual agents represent an exciting step in
automating many of these menial tasks. Virtual agents would empower users with
limited technical proficiency to harness the full possibilities of computer
systems. They could also enable the efficient streamlining of numerous computer
tasks, ranging from calendar management to complex travel bookings, with
minimal human intervention. In this paper, we introduce OmniACT, the
first-of-a-kind dataset and benchmark for assessing an agent's capability to
generate executable programs to accomplish computer tasks. Our scope extends
beyond traditional web automation, covering a diverse range of desktop
applications. The dataset consists of fundamental tasks such as "Play the next
song", as well as longer horizon tasks such as "Send an email to John Doe
mentioning the time and place to meet". Specifically, given a pair of screen
image and a visually-grounded natural language task, the goal is to generate a
script capable of fully executing the task. We run several strong baseline
language model agents on our benchmark. The strongest baseline, GPT-4, performs
the best on our benchmark However, its performance level still reaches only 15%
of the human proficiency in generating executable scripts capable of completing
the task, demonstrating the challenge of our task for conventional web agents.
Our benchmark provides a platform to measure and evaluate the progress of
language model agents in automating computer tasks and motivates future work
towards building multimodal models that bridge large language models and the
visual grounding of computer screens.Summary
AI-Generated Summary