OSUniverse: Benchmark voor Multimodale GUI-navigatie AI-agents
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
Auteurs: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
Samenvatting
In dit artikel introduceren we OSUniverse: een benchmark voor complexe, multimodale taken gericht op desktops voor geavanceerde GUI-navigatie AI-agents, met een focus op gebruiksgemak, uitbreidbaarheid, uitgebreide dekking van testgevallen en geautomatiseerde validatie. We verdelen de taken in oplopende niveaus van complexiteit, van eenvoudige precisieklikken tot meerstaps, multitoepassingstests die behendigheid, precisie en helder denken van de agent vereisen. In versie één van de benchmark, die hier wordt gepresenteerd, hebben we de complexiteit van de benchmarktestgevallen afgestemd om ervoor te zorgen dat de SOTA (State of the Art) agents (op het moment van publicatie) geen resultaten behalen die hoger zijn dan 50%, terwijl de gemiddelde kantoorwerker al deze taken met perfecte nauwkeurigheid kan uitvoeren. De benchmark kan handmatig worden gescoord, maar we introduceren ook een geautomatiseerd validatiemechanisme met een gemiddeld foutpercentage van minder dan 2%. Daarom biedt deze benchmark een solide basis voor volledig geautomatiseerde metingen van de voortgang, capaciteiten en effectiviteit van GUI-navigatie AI-agents op korte en middellange termijn. De broncode van de benchmark is beschikbaar op https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.