ChatPaper.aiChatPaper

OSUniverse: Бенчмарк для мультимодальных ИИ-агентов навигации по графическому интерфейсу

OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6, 2025
Авторы: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI

Аннотация

В данной статье мы представляем OSUniverse: эталонный набор сложных, мультимодальных задач, ориентированных на работу с рабочим столом, для продвинутых ИИ-агентов, специализирующихся на навигации в графическом интерфейсе. Основное внимание уделяется простоте использования, расширяемости, всестороннему охвату тестовых сценариев и автоматизированной проверке. Мы разделяем задачи по возрастающим уровням сложности — от базового точного клика до многошаговых тестов, требующих от агента ловкости, точности и ясного мышления при работе с несколькими приложениями. В первой версии эталонного набора, представленной здесь, мы откалибровали сложность тестовых сценариев, чтобы гарантировать, что современные (State of the Art) агенты (на момент публикации) не показывают результаты выше 50%, в то время как средний офисный работник выполняет все эти задачи с абсолютной точностью. Эталонный набор может оцениваться вручную, но мы также внедряем автоматизированный механизм проверки, средняя ошибка которого составляет менее 2%. Таким образом, этот эталонный набор предоставляет надежную основу для полностью автоматизированного измерения прогресса, возможностей и эффективности ИИ-агентов, ориентированных на навигацию в графическом интерфейсе, в краткосрочной и среднесрочной перспективе. Исходный код эталонного набора доступен по адресу https://github.com/agentsea/osuniverse.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.

Summary

AI-Generated Summary

PDF61May 8, 2025