ChatPaper.aiChatPaper

Агент S: Открытая агентная структура, использующая компьютеры подобно человеку.

Agent S: An Open Agentic Framework that Uses Computers Like a Human

October 10, 2024
Авторы: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI

Аннотация

Мы представляем Agent S, открытую агентическую платформу, обеспечивающую автономное взаимодействие с компьютерами через графический пользовательский интерфейс (GUI) с целью трансформации человеко-компьютерного взаимодействия путем автоматизации сложных многоэтапных задач. Agent S нацелен на решение трех основных проблем в автоматизации компьютерных задач: получение предметно-специфических знаний, планирование на протяжении длительных горизонтов задач и работу с динамическими, неоднородными интерфейсами. В этом контексте Agent S представляет опытом усиленное иерархическое планирование, которое извлекает уроки из внешнего поиска знаний и внутреннего извлечения опыта на различных уровнях, облегчая эффективное планирование задач и выполнение подзадач. Кроме того, он использует Интерфейс Агент-Компьютер (ACI) для более эффективного вызова рассуждений и управляющих способностей агентов GUI на основе Мультимодальных Больших Языковых Моделей (MLLMs). Оценка на тестовом наборе данных OSWorld показывает, что Agent S превосходит базовый уровень на 9,37% по показателю успешности (улучшение на 83,6% относительно) и достигает нового современного уровня. Комплексный анализ выделяет эффективность отдельных компонентов и предоставляет идеи для будущих улучшений. Кроме того, Agent S демонстрирует широкую применимость к различным операционным системам на новом тестовом наборе данных WindowsAgentArena. Код доступен по ссылке https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.

Summary

AI-Generated Summary

PDF242November 16, 2024