ChatPaper.aiChatPaper

OSUniverse : Benchmark pour les agents d'IA de navigation multimodale dans les interfaces graphiques

OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6, 2025
Auteurs: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI

Résumé

Dans cet article, nous présentons OSUniverse : un benchmark de tâches complexes et multimodales orientées bureau pour des agents d'IA avancés de navigation d'interface graphique, axé sur la facilité d'utilisation, l'extensibilité, une couverture exhaustive des cas de test et une validation automatisée. Nous divisons les tâches en niveaux de complexité croissants, allant de simples clics de précision à des tests multi-étapes et multi-applications nécessitant dextérité, précision et réflexion claire de la part de l'agent. Dans la première version du benchmark, présentée ici, nous avons calibré la complexité des cas de test pour garantir que les agents à l'état de l'art (SOTA, State of the Art) au moment de la publication n'obtiennent pas de résultats supérieurs à 50 %, tandis qu'un travailleur de bureau moyen peut accomplir toutes ces tâches avec une précision parfaite. Le benchmark peut être évalué manuellement, mais nous introduisons également un mécanisme de validation automatisée dont le taux d'erreur moyen est inférieur à 2 %. Ainsi, ce benchmark offre une base solide pour une mesure entièrement automatisée des progrès, des capacités et de l'efficacité des agents d'IA de navigation d'interface graphique à court et moyen terme. Le code source du benchmark est disponible à l'adresse suivante : https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.

Summary

AI-Generated Summary

PDF61May 8, 2025