OSUniverse: 다중모드 GUI 탐색 AI 에이전트를 위한 벤치마크
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
저자: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
초록
본 논문에서는 사용 편의성, 확장성, 테스트 케이스의 포괄적 커버리지, 그리고 자동화된 검증에 초점을 맞춘 고급 GUI 탐색 AI 에이전트를 위한 복잡한 멀티모달 데스크톱 지향 작업의 벤치마크인 OSUniverse를 소개한다. 작업은 기본적인 정밀 클릭에서부터 민첩성, 정밀도, 명확한 사고를 요구하는 다단계, 다중 애플리케이션 테스트에 이르기까지 점진적으로 복잡성이 증가하는 수준으로 구분된다. 여기서 소개하는 벤치마크의 첫 번째 버전에서는, 출판 당시의 최첨단(SOTA) 에이전트가 50% 이상의 성과를 달성하지 못하도록 벤치마크 테스트 케이스의 복잡성을 조정하였으며, 평범한 화이트칼라 근로자는 이 모든 작업을 완벽한 정확도로 수행할 수 있도록 하였다. 이 벤치마크는 수동으로 채점할 수 있지만, 평균 오류율이 2% 미만인 자동화된 검증 메커니즘도 도입하였다. 따라서 이 벤치마크는 단기 및 중기적으로 GUI 탐색 AI 에이전트의 진전, 능력 및 효과를 완전히 자동화된 방식으로 측정할 수 있는 견고한 기반을 제공한다. 벤치마크의 소스 코드는 https://github.com/agentsea/osuniverse에서 확인할 수 있다.
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.Summary
AI-Generated Summary