OSUniverse: Benchmark para Agentes de IA de Navegação Multimodal em Interfaces Gráficas
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
Autores: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
Resumo
Neste artigo, apresentamos o OSUniverse: um benchmark de tarefas complexas e multimodais orientadas para desktop, destinado a agentes de IA avançados de navegação em interfaces gráficas (GUI), com foco em facilidade de uso, extensibilidade, cobertura abrangente de casos de teste e validação automatizada. Dividimos as tarefas em níveis crescentes de complexidade, desde cliques básicos de precisão até testes multietapas e multiaplicativos que exigem destreza, precisão e pensamento claro por parte do agente. Na primeira versão do benchmark, apresentada aqui, calibramos a complexidade dos casos de teste para garantir que os agentes de ponta (State of the Art - SOTA) no momento da publicação não alcancem resultados superiores a 50%, enquanto um trabalhador de colarinho branco médio consegue realizar todas essas tarefas com precisão perfeita. O benchmark pode ser avaliado manualmente, mas também introduzimos um mecanismo de validação automatizada com uma taxa de erro média inferior a 2%. Portanto, este benchmark oferece uma base sólida para a medição totalmente automatizada do progresso, das capacidades e da eficácia de agentes de IA de navegação em GUI no curto e médio prazo. O código-fonte do benchmark está disponível em https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.