Agente S: Un Marco Agente Abierto que Utiliza Computadoras Como un Humano
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Autores: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Resumen
Presentamos Agente S, un marco agente abierto que permite la interacción autónoma con computadoras a través de una Interfaz Gráfica de Usuario (GUI), con el objetivo de transformar la interacción humano-computadora mediante la automatización de tareas complejas y multi-paso. El Agente S tiene como objetivo abordar tres desafíos clave en la automatización de tareas informáticas: adquirir conocimiento específico del dominio, planificar a lo largo de horizontes temporales extensos y manejar interfaces dinámicas y no uniformes. Con este fin, el Agente S introduce la planificación jerárquica aumentada por la experiencia, que aprende de la búsqueda de conocimiento externo y la recuperación de experiencias internas en múltiples niveles, facilitando la planificación eficiente de tareas y la ejecución de subtareas. Además, emplea una Interfaz Agente-Computadora (IAC) para obtener de manera más efectiva las capacidades de razonamiento y control de agentes GUI basados en Modelos de Lenguaje Multimodal Grande (MLLMs). La evaluación en el banco de pruebas OSWorld muestra que el Agente S supera al valor base en un 9.37% en la tasa de éxito (una mejora relativa del 83.6%) y logra un nuevo estado del arte. Un análisis exhaustivo destaca la efectividad de los componentes individuales y proporciona ideas para futuras mejoras. Además, el Agente S demuestra una amplia generalizabilidad a diferentes sistemas operativos en un nuevo banco de pruebas WindowsAgentArena recientemente lanzado. Código disponible en https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary