A3: Arena de Agentes Android para Agentes GUI Móviles
A3: Android Agent Arena for Mobile GUI Agents
January 2, 2025
Autores: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
cs.AI
Resumen
Los agentes de IA se han vuelto cada vez más comunes en los últimos años, impulsados por avances significativos en el campo de los modelos de lenguaje grandes (LLMs). Los agentes de GUI móvil, un subconjunto de agentes de IA, están diseñados para realizar tareas de forma autónoma en dispositivos móviles. Aunque numerosos estudios han presentado agentes, conjuntos de datos y puntos de referencia para avanzar en la investigación de agentes de GUI móvil, muchos conjuntos de datos existentes se centran en evaluaciones de cuadros estáticos y no logran proporcionar una plataforma integral para evaluar el rendimiento en tareas del mundo real y en entornos no controlados. Para abordar esta brecha, presentamos Android Agent Arena (A3), una plataforma de evaluación novedosa. A diferencia de los sistemas en entornos no controlados existentes, A3 ofrece: (1) tareas significativas y prácticas, como la recuperación de información en línea en tiempo real e instrucciones operativas; (2) un espacio de acción más amplio y flexible, que permite la compatibilidad con agentes entrenados en cualquier conjunto de datos; y (3) un proceso de evaluación automatizado basado en LLM a nivel empresarial. A3 incluye 21 aplicaciones de terceros generales ampliamente utilizadas y 201 tareas representativas de escenarios de usuario comunes, lo que proporciona una base sólida para evaluar agentes de GUI móvil en situaciones del mundo real y un nuevo proceso de evaluación autónomo que requiere menos mano de obra humana y experiencia en programación. El proyecto está disponible en https://yuxiangchai.github.io/Android-Agent-Arena/.
English
AI agents have become increasingly prevalent in recent years, driven by
significant advancements in the field of large language models (LLMs). Mobile
GUI agents, a subset of AI agents, are designed to autonomously perform tasks
on mobile devices. While numerous studies have introduced agents, datasets, and
benchmarks to advance mobile GUI agent research, many existing datasets focus
on static frame evaluations and fail to provide a comprehensive platform for
assessing performance on real-world, in-the-wild tasks. To address this gap, we
present Android Agent Arena (A3), a novel evaluation platform. Unlike existing
in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as
real-time online information retrieval and operational instructions; (2) a
larger, more flexible action space, enabling compatibility with agents trained
on any dataset; and (3) automated business-level LLM-based evaluation process.
A3 includes 21 widely used general third-party apps and 201 tasks
representative of common user scenarios, providing a robust foundation for
evaluating mobile GUI agents in real-world situations and a new autonomous
evaluation process for less human labor and coding expertise. The project is
available at https://yuxiangchai.github.io/Android-Agent-Arena/.Summary
AI-Generated Summary