OSUniverse: Punto de referencia para agentes de IA de navegación GUI multimodal
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
Autores: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
Resumen
En este artículo, presentamos OSUniverse: un benchmark de tareas complejas y multimodales orientadas al escritorio para agentes de IA avanzados de navegación GUI, que se centra en la facilidad de uso, la extensibilidad, la cobertura exhaustiva de casos de prueba y la validación automatizada. Dividimos las tareas en niveles crecientes de complejidad, desde clics de precisión básicos hasta pruebas de múltiples pasos y aplicaciones que requieren destreza, precisión y pensamiento claro por parte del agente. En la versión uno del benchmark, presentada aquí, hemos calibrado la complejidad de los casos de prueba para garantizar que los agentes SOTA (State of the Art, estado del arte) en el momento de la publicación no obtengan resultados superiores al 50%, mientras que un trabajador de oficina promedio puede realizar todas estas tareas con precisión perfecta. El benchmark puede ser evaluado manualmente, pero también introducimos un mecanismo de validación automatizada que tiene una tasa de error promedio inferior al 2%. Por lo tanto, este benchmark ofrece una base sólida para la medición completamente automatizada del progreso, las capacidades y la efectividad de los agentes de IA de navegación GUI en horizontes de corto y mediano plazo. El código fuente del benchmark está disponible en https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.Summary
AI-Generated Summary