OSUniverse: Punto de referencia para agentes de IA de navegación GUI multimodal

Resumen

En este artículo, presentamos OSUniverse: un benchmark de tareas complejas y multimodales orientadas al escritorio para agentes de IA avanzados de navegación GUI, que se centra en la facilidad de uso, la extensibilidad, la cobertura exhaustiva de casos de prueba y la validación automatizada. Dividimos las tareas en niveles crecientes de complejidad, desde clics de precisión básicos hasta pruebas de múltiples pasos y aplicaciones que requieren destreza, precisión y pensamiento claro por parte del agente. En la versión uno del benchmark, presentada aquí, hemos calibrado la complejidad de los casos de prueba para garantizar que los agentes SOTA (State of the Art, estado del arte) en el momento de la publicación no obtengan resultados superiores al 50%, mientras que un trabajador de oficina promedio puede realizar todas estas tareas con precisión perfecta. El benchmark puede ser evaluado manualmente, pero también introducimos un mecanismo de validación automatizada que tiene una tasa de error promedio inferior al 2%. Por lo tanto, este benchmark ofrece una base sólida para la medición completamente automatizada del progreso, las capacidades y la efectividad de los agentes de IA de navegación GUI en horizontes de corto y mediano plazo. El código fuente del benchmark está disponible en https://github.com/agentsea/osuniverse.

English

In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.

OSUniverse: Punto de referencia para agentes de IA de navegación GUI multimodal

OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

Resumen

Support