OmniACT: 데스크톱 및 웹을 위한 다중 모달 일반 자율 에이전트 활성화를 위한 데이터셋 및 벤치마크
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web
February 27, 2024
저자: Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
cs.AI
초록
수십 년 동안 인간-컴퓨터 상호작용은 근본적으로 수동적이었습니다. 오늘날에도 컴퓨터에서 이루어지는 거의 모든 생산적인 작업은 각 단계마다 인간의 입력을 필요로 합니다. 자율적인 가상 에이전트는 이러한 단순 작업들을 자동화하는 데 있어 흥미로운 진전을 나타냅니다. 가상 에이전트는 기술적 숙련도가 낮은 사용자들도 컴퓨터 시스템의 모든 가능성을 활용할 수 있도록 돕습니다. 또한 캘린더 관리부터 복잡한 여행 예약에 이르기까지 다양한 컴퓨터 작업을 최소한의 인간 개입으로 효율적으로 간소화할 수 있습니다. 본 논문에서는 컴퓨터 작업을 수행하기 위해 실행 가능한 프로그램을 생성하는 에이전트의 능력을 평가하기 위한 최초의 데이터셋 및 벤치마크인 OmniACT를 소개합니다. 우리의 범위는 전통적인 웹 자동화를 넘어 다양한 데스크톱 애플리케이션을 포괄합니다. 이 데이터셋은 "다음 곡 재생"과 같은 기본 작업부터 "John Doe에게 만날 시간과 장소를 언급한 이메일 보내기"와 같은 장기적 작업으로 구성됩니다. 구체적으로, 화면 이미지와 시각적으로 기반을 둔 자연어 작업 쌍이 주어졌을 때, 작업을 완전히 실행할 수 있는 스크립트를 생성하는 것이 목표입니다. 우리는 벤치마크에서 여러 강력한 언어 모델 에이전트를 실행했습니다. 가장 강력한 베이스라인인 GPT-4는 우리의 벤치마크에서 가장 좋은 성능을 보였지만, 작업을 완료할 수 있는 실행 가능한 스크립트 생성에서 인간의 숙련도에 비해 여전히 15%에 불과한 성능을 보여, 기존 웹 에이전트에게 우리의 작업이 얼마나 도전적인지를 입증했습니다. 우리의 벤치마크는 컴퓨터 작업 자동화에서 언어 모델 에이전트의 진전을 측정하고 평가할 수 있는 플랫폼을 제공하며, 대규모 언어 모델과 컴퓨터 화면의 시각적 기반을 연결하는 다중 모드 모델 구축을 위한 미래 연구를 촉진합니다.
English
For decades, human-computer interaction has fundamentally been manual. Even
today, almost all productive work done on the computer necessitates human input
at every step. Autonomous virtual agents represent an exciting step in
automating many of these menial tasks. Virtual agents would empower users with
limited technical proficiency to harness the full possibilities of computer
systems. They could also enable the efficient streamlining of numerous computer
tasks, ranging from calendar management to complex travel bookings, with
minimal human intervention. In this paper, we introduce OmniACT, the
first-of-a-kind dataset and benchmark for assessing an agent's capability to
generate executable programs to accomplish computer tasks. Our scope extends
beyond traditional web automation, covering a diverse range of desktop
applications. The dataset consists of fundamental tasks such as "Play the next
song", as well as longer horizon tasks such as "Send an email to John Doe
mentioning the time and place to meet". Specifically, given a pair of screen
image and a visually-grounded natural language task, the goal is to generate a
script capable of fully executing the task. We run several strong baseline
language model agents on our benchmark. The strongest baseline, GPT-4, performs
the best on our benchmark However, its performance level still reaches only 15%
of the human proficiency in generating executable scripts capable of completing
the task, demonstrating the challenge of our task for conventional web agents.
Our benchmark provides a platform to measure and evaluate the progress of
language model agents in automating computer tasks and motivates future work
towards building multimodal models that bridge large language models and the
visual grounding of computer screens.