A3: Arena de Agentes Android para Agentes GUI Móviles

Resumen

Los agentes de IA se han vuelto cada vez más comunes en los últimos años, impulsados por avances significativos en el campo de los modelos de lenguaje grandes (LLMs). Los agentes de GUI móvil, un subconjunto de agentes de IA, están diseñados para realizar tareas de forma autónoma en dispositivos móviles. Aunque numerosos estudios han presentado agentes, conjuntos de datos y puntos de referencia para avanzar en la investigación de agentes de GUI móvil, muchos conjuntos de datos existentes se centran en evaluaciones de cuadros estáticos y no logran proporcionar una plataforma integral para evaluar el rendimiento en tareas del mundo real y en entornos no controlados. Para abordar esta brecha, presentamos Android Agent Arena (A3), una plataforma de evaluación novedosa. A diferencia de los sistemas en entornos no controlados existentes, A3 ofrece: (1) tareas significativas y prácticas, como la recuperación de información en línea en tiempo real e instrucciones operativas; (2) un espacio de acción más amplio y flexible, que permite la compatibilidad con agentes entrenados en cualquier conjunto de datos; y (3) un proceso de evaluación automatizado basado en LLM a nivel empresarial. A3 incluye 21 aplicaciones de terceros generales ampliamente utilizadas y 201 tareas representativas de escenarios de usuario comunes, lo que proporciona una base sólida para evaluar agentes de GUI móvil en situaciones del mundo real y un nuevo proceso de evaluación autónomo que requiere menos mano de obra humana y experiencia en programación. El proyecto está disponible en https://yuxiangchai.github.io/Android-Agent-Arena/.

English

AI agents have become increasingly prevalent in recent years, driven by significant advancements in the field of large language models (LLMs). Mobile GUI agents, a subset of AI agents, are designed to autonomously perform tasks on mobile devices. While numerous studies have introduced agents, datasets, and benchmarks to advance mobile GUI agent research, many existing datasets focus on static frame evaluations and fail to provide a comprehensive platform for assessing performance on real-world, in-the-wild tasks. To address this gap, we present Android Agent Arena (A3), a novel evaluation platform. Unlike existing in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as real-time online information retrieval and operational instructions; (2) a larger, more flexible action space, enabling compatibility with agents trained on any dataset; and (3) automated business-level LLM-based evaluation process. A3 includes 21 widely used general third-party apps and 201 tasks representative of common user scenarios, providing a robust foundation for evaluating mobile GUI agents in real-world situations and a new autonomous evaluation process for less human labor and coding expertise. The project is available at https://yuxiangchai.github.io/Android-Agent-Arena/.

A3: Arena de Agentes Android para Agentes GUI Móviles

A3: Android Agent Arena for Mobile GUI Agents

Resumen

Support