OSUniverse: Benchmark für multimodale GUI-Navigations-KI-Agenten
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
Autoren: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
Zusammenfassung
In diesem Artikel stellen wir OSUniverse vor: einen Benchmark für komplexe, multimodale, desktoporientierte Aufgaben für fortgeschrittene KI-Agenten zur GUI-Navigation, der sich auf Benutzerfreundlichkeit, Erweiterbarkeit, umfassende Abdeckung von Testfällen und automatisierte Validierung konzentriert. Wir unterteilen die Aufgaben in zunehmende Schwierigkeitsgrade, von einfachen Präzisionsklicks bis hin zu mehrstufigen, anwendungsübergreifenden Tests, die Geschicklichkeit, Präzision und klares Denken des Agenten erfordern. In der hier vorgestellten ersten Version des Benchmarks haben wir die Komplexität der Testfälle so kalibriert, dass die State-of-the-Art (SOTA) Agenten (zum Zeitpunkt der Veröffentlichung) keine Ergebnisse über 50 % erzielen, während der durchschnittliche Büroangestellte alle diese Aufgaben mit perfekter Genauigkeit ausführen kann. Der Benchmark kann manuell bewertet werden, wir führen jedoch auch einen automatisierten Validierungsmechanismus ein, der eine durchschnittliche Fehlerrate von weniger als 2 % aufweist. Daher bietet dieser Benchmark eine solide Grundlage für die vollständig automatisierte Messung von Fortschritt, Fähigkeiten und der Effektivität von KI-Agenten zur GUI-Navigation im kurz- und mittelfristigen Horizont. Der Quellcode des Benchmarks ist unter https://github.com/agentsea/osuniverse verfügbar.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.Summary
AI-Generated Summary