ChatPaper.aiChatPaper

OSUniverse: Benchmark voor Multimodale GUI-navigatie AI-agents

OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6, 2025
Auteurs: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI

Samenvatting

In dit artikel introduceren we OSUniverse: een benchmark voor complexe, multimodale taken gericht op desktops voor geavanceerde GUI-navigatie AI-agents, met een focus op gebruiksgemak, uitbreidbaarheid, uitgebreide dekking van testgevallen en geautomatiseerde validatie. We verdelen de taken in oplopende niveaus van complexiteit, van eenvoudige precisieklikken tot meerstaps, multitoepassingstests die behendigheid, precisie en helder denken van de agent vereisen. In versie één van de benchmark, die hier wordt gepresenteerd, hebben we de complexiteit van de benchmarktestgevallen afgestemd om ervoor te zorgen dat de SOTA (State of the Art) agents (op het moment van publicatie) geen resultaten behalen die hoger zijn dan 50%, terwijl de gemiddelde kantoorwerker al deze taken met perfecte nauwkeurigheid kan uitvoeren. De benchmark kan handmatig worden gescoord, maar we introduceren ook een geautomatiseerd validatiemechanisme met een gemiddeld foutpercentage van minder dan 2%. Daarom biedt deze benchmark een solide basis voor volledig geautomatiseerde metingen van de voortgang, capaciteiten en effectiviteit van GUI-navigatie AI-agents op korte en middellange termijn. De broncode van de benchmark is beschikbaar op https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.
PDF71May 8, 2025