OmniACT : Un ensemble de données et un benchmark pour permettre des agents autonomes généralistes multimodaux pour les environnements de bureau et web

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

February 27, 2024
Auteurs: Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
cs.AI

Résumé

Depuis des décennies, l'interaction homme-machine a été fondamentalement manuelle. Même aujourd'hui, presque tout travail productif effectué sur ordinateur nécessite une intervention humaine à chaque étape. Les agents virtuels autonomes représentent une avancée prometteuse dans l'automatisation de nombreuses de ces tâches fastidieuses. Ces agents virtuels permettraient aux utilisateurs ayant une maîtrise technique limitée d'exploiter pleinement les possibilités des systèmes informatiques. Ils pourraient également permettre une rationalisation efficace de nombreuses tâches informatiques, allant de la gestion des calendriers à des réservations de voyage complexes, avec une intervention humaine minimale. Dans cet article, nous présentons OmniACT, le premier ensemble de données et benchmark de son genre pour évaluer la capacité d'un agent à générer des programmes exécutables afin d'accomplir des tâches informatiques. Notre champ d'application va au-delà de l'automatisation web traditionnelle, couvrant une gamme variée d'applications de bureau. L'ensemble de données comprend des tâches fondamentales telles que "Lire la chanson suivante", ainsi que des tâches à plus long terme comme "Envoyer un e-mail à John Doe mentionnant l'heure et le lieu de rendez-vous". Plus précisément, étant donné une paire composée d'une image d'écran et d'une tâche en langage naturel visuellement ancrée, l'objectif est de générer un script capable d'exécuter entièrement la tâche. Nous avons testé plusieurs agents de modèles de langage robustes sur notre benchmark. Le modèle le plus performant, GPT-4, obtient les meilleurs résultats sur notre benchmark. Cependant, son niveau de performance n'atteint que 15 % de la compétence humaine dans la génération de scripts exécutables capables de réaliser la tâche, ce qui démontre la complexité de notre tâche pour les agents web conventionnels. Notre benchmark offre une plateforme pour mesurer et évaluer les progrès des agents de modèles de langage dans l'automatisation des tâches informatiques et encourage les travaux futurs visant à développer des modèles multimodaux qui relient les grands modèles de langage à l'ancrage visuel des écrans d'ordinateur.
English
For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. Autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would empower users with limited technical proficiency to harness the full possibilities of computer systems. They could also enable the efficient streamlining of numerous computer tasks, ranging from calendar management to complex travel bookings, with minimal human intervention. In this paper, we introduce OmniACT, the first-of-a-kind dataset and benchmark for assessing an agent's capability to generate executable programs to accomplish computer tasks. Our scope extends beyond traditional web automation, covering a diverse range of desktop applications. The dataset consists of fundamental tasks such as "Play the next song", as well as longer horizon tasks such as "Send an email to John Doe mentioning the time and place to meet". Specifically, given a pair of screen image and a visually-grounded natural language task, the goal is to generate a script capable of fully executing the task. We run several strong baseline language model agents on our benchmark. The strongest baseline, GPT-4, performs the best on our benchmark However, its performance level still reaches only 15% of the human proficiency in generating executable scripts capable of completing the task, demonstrating the challenge of our task for conventional web agents. Our benchmark provides a platform to measure and evaluate the progress of language model agents in automating computer tasks and motivates future work towards building multimodal models that bridge large language models and the visual grounding of computer screens.

Summary

AI-Generated Summary

PDF266December 15, 2024