Agente S: Um Framework Agente Aberto que Utiliza Computadores Como um Humano
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Autores: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Resumo
Apresentamos o Agente S, um framework agente aberto que possibilita interação autônoma com computadores por meio de uma Interface Gráfica do Usuário (GUI), com o objetivo de transformar a interação humano-computador automatizando tarefas complexas e multi-etapas. O Agente S visa lidar com três desafios-chave na automação de tarefas computacionais: aquisição de conhecimento específico do domínio, planejamento em horizontes de tarefa longos e lidar com interfaces dinâmicas e não uniformes. Para isso, o Agente S introduz planejamento hierárquico aumentado por experiência, que aprende a partir de busca de conhecimento externo e recuperação de experiência interna em múltiplos níveis, facilitando o planejamento eficiente de tarefas e execução de subtarefas. Além disso, emprega uma Interface Agente-Computador (IAC) para elicitar melhor as capacidades de raciocínio e controle de agentes de GUI com base em Modelos de Linguagem Multimodal Grande (MLLMs). A avaliação no benchmark OSWorld mostra que o Agente S supera a linha de base em 9,37% na taxa de sucesso (uma melhoria relativa de 83,6%) e alcança um novo estado da arte. Uma análise abrangente destaca a eficácia dos componentes individuais e fornece insights para melhorias futuras. Além disso, o Agente S demonstra ampla generalizabilidade para diferentes sistemas operacionais em um novo benchmark WindowsAgentArena recém-lançado. Código disponível em https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary